演題番号 | 2G4-5 |
---|---|
題目 | DOM構造上の条件付確率場を用いたWikipedia 文書中の用語の意味体系への割り当て |
著者 | 渡邉 陽太郎 (奈良先端科学技術大学院大学) 浅原 正幸 (奈良先端科学技術大学院大学 情報科学研究科) 松本 裕治 (奈良先端科学技術大学院大学 情報科学研究科) |
時間 | 6月21日(木) 10:20〜10:40 |
概要 | Web上の多言語百科事典である Wikipedia 中の固有表現を既存の意味体系上に自動的に割り当てる手法を提案する.Wikipediaは,一つの文書中に一つの用語について記述されているため,固有表現の意味体系への割り当ての問題を各用語の説明文書に対するラベル付与問題として扱うことができる.Wikipedia 文書は構造化されているために,一般的な文書分類手法のように文書に個別にラベルを分類するのではなく,HTML文書のDOM構造を利用することで精度の向上が期待できる.そこで本稿では,Conditional Random Fields (CRFs) を用いてHTMLのDOM構造を考慮した分類手法について提案する.評価実験を行い,Support Vector Machines による手法と比較してより高い精度で固有表現の獲得ができたことを報告する. |
論文 | PDFファイル |