演題番号 | 1G3-4 |
---|---|
題目 | Earth Mover's Distanceを用いたテキスト分類 |
著者 | 柳本 豪一 (大阪府立大学 工学部) 大松 繁 (大阪府立大学 工学部) |
時間 | 6月20日(水) 17:30〜17:50 |
概要 | 文書類似度を求めるため、従来はコサイン類似度がよく用いられていた。しかし、コサイン類似度は索引語間の無相関性を仮定しているため、実際の文書における索引語には厳しい仮定となっていた。この仮定をゆるめるため、Earth Mover's Distanceを類似度として用いるテキスト分類を提案する。索引語間の相関性を考慮するため、索引語間の距離を共起情報に基づいて決定することを特徴としている。本論文では、Reuters-21578を用いて評価実験を行うことにより、コサイン類似度を用いた手法に比べ提案手法が分類精度を改善することを確認した。 |
論文 | PDFファイル |