d-bigramを用いた単語のクラスタリング

Translated title of the contribution: Word Clustering Using D-bigram

佐藤 健吾, 堤 純也, 孫 大江, 延澤 志保, 佐野 智久, 中西 正和, Shiho NOBESAWA

Research output: Contribution to journalMisc

Abstract

単語の使われ方による単語の自動的な分類の手法は、科学的、実践的見地から興味が持たれている。例えば、・言語学的な構造の分布や語彙の獲得における疑問に対する、精神的あるいは計算的な学習の展望にどのような関係があるか。・どうやって希薄なデータをうまく処理したり、統計的な言語モデルを生成するか。といった問題が挙げられる。巨大なコーパスになると、大部分がsparseデータになってしまうため、信頼性が低くなってしまうことが良く知られている。この問題に対してsparseデータを"似ている"イベントで代用することが考えられるが、類似度を単語のクラスや対応するモデルの生成に直接使う方法は明らかになっていない。本論文では、d-bigram[2]を用いた単語のクラスタリングの方法について考察し、どのようなクラスタが生成されるかを検証する。
Translated title of the contributionWord Clustering Using D-bigram
Original languageJapanese
Pages (from-to)7 - 8
Journal全国大会講演論文集
Volume51
StatePublished - 20 Sep 1995

Cite this