/ プログラム / 発表一覧 / 著者一覧 / JSAI2007 ホーム

2G4-5 DOM構造上の条件付確率場を用いたWikipedia 文書中の用語の意味体系への割り当て

6月21日(木) 09:00〜10:40 G会場
情報検索・抽出・分類#3

演題番号2G4-5
題目DOM構造上の条件付確率場を用いたWikipedia 文書中の用語の意味体系への割り当て
著者渡邉 陽太郎 (奈良先端科学技術大学院大学)
浅原 正幸 (奈良先端科学技術大学院大学 情報科学研究科)
松本 裕治 (奈良先端科学技術大学院大学 情報科学研究科)
時間6月21日(木) 10:20〜10:40
概要Web上の多言語百科事典である Wikipedia 中の固有表現を既存の意味体系上に自動的に割り当てる手法を提案する.Wikipediaは,一つの文書中に一つの用語について記述されているため,固有表現の意味体系への割り当ての問題を各用語の説明文書に対するラベル付与問題として扱うことができる.Wikipedia 文書は構造化されているために,一般的な文書分類手法のように文書に個別にラベルを分類するのではなく,HTML文書のDOM構造を利用することで精度の向上が期待できる.そこで本稿では,Conditional Random Fields (CRFs) を用いてHTMLのDOM構造を考慮した分類手法について提案する.評価実験を行い,Support Vector Machines による手法と比較してより高い精度で固有表現の獲得ができたことを報告する.
論文PDFファイル

/ プログラム / 発表一覧 / 著者一覧 / JSAI2007 ホーム