Skip to content

furukawa-laboratory/ExploreSearchSystem

This branch is 193 commits ahead of, 1 commit behind hirowatari-s/ExploreSearchSystem:main.

Folders and files

NameName
Last commit message
Last commit date
Oct 6, 2021
Oct 29, 2021
Oct 30, 2021
Aug 31, 2021
Oct 6, 2021
Oct 29, 2021
Sep 17, 2021
Oct 21, 2021
Sep 16, 2021
Sep 14, 2021
Oct 5, 2021
Oct 29, 2021
Sep 17, 2021
Oct 29, 2021
Oct 29, 2021
Oct 29, 2021
Aug 31, 2021
Oct 29, 2021
Oct 29, 2021
Sep 18, 2021
Sep 12, 2021
Oct 29, 2021

Repository files navigation

技育展

Tmp Info

  • 使用するアルゴリズム

  • システム構成図(叩き台) システム構成図(叩き台)

  • データ収集(fetch.py)

  • データ整形(make_BoW.py)

    • ScrapingがうまくいってないSnnipetをdataframeから削除
    • 名詞・動詞・形容詞のみ抽出
    • 半角・大文字の違いがなくなるように全て半角で統一
    • 数字は全て0とする.(2015, 2014年や1200円とかも全て統一する)
    • stop_wordというある研究で文章解析に不要だと知られている単語を削除
    • max_dfで50個の文章で使われている単語は削除(ファッション)
    • min_dfで3個未満の文章でしか使われていない単語は削除
    • 最後に,Tf-idf処理を使って,「その単語がよく出現するほど」、「その単語がレアなほど」大きい値を示すようにする
      • tf(各文章においてその単語がどれだけ出現したのか
      • idf(どの文章でも使われる単語は重みは小さくしてユニークな単語の重みは大きくする処理をおこなう.)
  • データ学習(fit.py)

Releases

No releases published

Packages

No packages published

Languages

  • Python 95.4%
  • CSS 3.2%
  • Other 1.4%