メインナビゲーションにスキップ 検索にスキップ メインコンテンツにスキップ

言語に依存しない大規模テキストデータからの自動単語分割技術の確立

プロジェクト: 学内教育施設等への助成金

プロジェクトの詳細

内容の説明

本研究の目的は、Unicodeで表現された複数の言語が混在するテキストデータを、同一のプログラムで処理する単語分割技術を構築することである。この技術は、単純な状態遷移モデルに基づいた、各言語の辞書や文法知識を一切必要としない言語独立な単語分割方式であり、かつ口語体文書や古語も含めた世界中のあらゆる非分かち書き言語が混在している大規模なテキストデータも処理可能である可能性が高い。 本研究では、1)処理対象となる言語の拡張、2)適用事例の拡張、3)基礎理論の構築、の3方向に研究を進めている。 平成30年度は2)と3)の方向性で研究を進めた。成果としては、2)の方向性で2件の論文が論文誌に採録になり,国際会議で1件の論文を,国内の学会で3件の論文を口頭発表した。また、3)の方向性で,国際会議で2件の論文を,国内の学科でも2件の論文を発表した。 例えば、研究発表リスト中の最初の論文「気象情報とTweetデータの統合的分析による体感気温の定量化とその需要予測への応用」では、小売店における在庫過多や廃棄処分を課題とした。この市場における需要予測を考えた場合、気温や天候などの気象条件はその重要な要因であるといえる。その一方で、商品需要は気温などの単純な気象情報ではなく、消費者が感じる体感気温の影響を受けることが想定される。体感気温の定量化に関する研究は数多くなされてきており、湿度や風速といった気象条件に影響を受けやすいといったことがわかっている。加えて、体感気温はこれらの気象条件以外にも、着衣量、代謝量といった人体条件の影響も受けるといわれており、その感覚の定量化の方法は様々である。そこで、大規模データであるTwitterのデータを学習し、需要予測のための体感気温の定量化を行うモデルを提案するとともに、需要予測への利用の有効性について検討を行った。
ステータスアクティブ
有効開始/終了日1/04/16 → …

資金調達

  • 日本学術振興会: ¥3,250,000

フィンガープリント

このプロジェクトで扱った研究トピックを検索します。これらのラベルは、プロジェクトの研究費/助成金に基づいて生成されます。これらがまとまってユニークなフィンガープリントを構成します。