/ プログラム / 発表一覧 / 著者一覧 / JSAI2007 ホーム

2G4-2 複数のWeb Wrapperを用いた実用的な情報抽出

6月21日(木) 09:00〜10:40 G会場
情報検索・抽出・分類#3

演題番号2G4-2
題目複数のWeb Wrapperを用いた実用的な情報抽出
著者植松 幸生 (日本電信電話,NTTサイバーソリューション研究所/東京理科大学理工学研究科)
内山 俊郎 (日本電信電話,NTTサイバーソリューション研究所)
片岡 良治 (日本電信電話,NTTサイバーソリューション研究所)
松井 藤五郎 (東京理科大学 理工学部 経営工学科)
大和田 勇人 (東京理科大学 理工学部 経営工学科)
時間6月21日(木) 09:20〜09:40
概要本稿は大量にあるWeb ページから有用な情報を抽出するWeb Wrapper(以下ラッパ) において実用的な方法を提案する.従来のラッパの研究では抽出器が単一のラッパで構成される事を前提としていた.しかしながら,単一のラッパでは抽出器の表現力が乏しく,あるページ内における小さなレイアウトの変化に適応できないため,ラッパの生成に失敗する事があった.本研究ではラッパを複数のラッパで構成するために特殊ラッパと呼ぶラッパを定義し,ラッパを複数の特殊ラッパで表現することで,今まで正確に抽出する事が困難だったページに対しても抽出可能である事を確認した.
論文PDFファイル

/ プログラム / 発表一覧 / 著者一覧 / JSAI2007 ホーム