メインナビゲーションにスキップ 検索にスキップ メインコンテンツにスキップ

集合知に基づくVI上昇予測モデルの実用化に向けたパイロットプラントの構築

  • OGAWA, Yuki (CoPI)
  • 英一, 梅原 (CoPI)
  • 諏訪 博彦 (CoPI)
  • 小川 祐樹 (CoPI)

プロジェクト: 学内教育施設等への助成金

プロジェクトの詳細

内容の説明

本年度は言語モデルの拡張を行った。第一に、これまでのLDAは単語の出現頻度のみを見るため、ドキュメント間の類似性と語順は考慮されていない。そこで、短い文書に有効なDoc2Vecと文書の語順を考慮できるBERTを試した。また機械学習アルゴリズムはロジスティック回帰とランダムフォレストに加え、LightGBMを試した。実験結果は、LightGBMのDoc2Vecの64次元で、正と負の例の比率を3:7にダウンサンプリングすることで、適合率が0.24、再現率は0.28、F値は 0.26となった。 第二に、Sparse Composite Document Vector (SCDV)を用いて文書分散表現の獲得にトライした。本研究ではベースラインとして Simple Word-Embedding-based Model(SWEM)を用いた。SWEMとは word2vecにより得られた文書中の単語埋め込みの各配列を単純に加算や平均して文書分散表現を獲得する手法である。実験の結果、SWEM を用いた手法は、適合率が 0.19、再現率が0.56、F値が0.28となった。この結果、SWEMがノイズの多い文書に対してLDA、Doc2Vec、BERTよりもパフォーマンスが良いことを示した。 第三に、SCDVの分散表現はセンチメント情報が失われている可能性がある。そこで、SCDV での埋め込み表現に感情情報を反映させるように、SSCDVと名付けた新たな文書分散表現獲得手法を提案した。SSCDV では、文書のトピック情報とセンチメント情報の相乗効果により、文書のより豊富なセマンティクスを捉えた埋め込み表現を獲得することを目的とする。実験の結果、SSCDVを用いたモデルが最も精度が良く、適合率が0.19、再現率が0.53、F値が0.28 となった。
ステータスアクティブ
有効開始/終了日1/04/20 → …

資金調達

  • 日本学術振興会: ¥4,290,000