演題番号 | 2G4-2 |
---|---|
題目 | 複数のWeb Wrapperを用いた実用的な情報抽出 |
著者 | 植松 幸生 (日本電信電話,NTTサイバーソリューション研究所/東京理科大学理工学研究科) 内山 俊郎 (日本電信電話,NTTサイバーソリューション研究所) 片岡 良治 (日本電信電話,NTTサイバーソリューション研究所) 松井 藤五郎 (東京理科大学 理工学部 経営工学科) 大和田 勇人 (東京理科大学 理工学部 経営工学科) |
時間 | 6月21日(木) 09:20〜09:40 |
概要 | 本稿は大量にあるWeb ページから有用な情報を抽出するWeb Wrapper(以下ラッパ) において実用的な方法を提案する.従来のラッパの研究では抽出器が単一のラッパで構成される事を前提としていた.しかしながら,単一のラッパでは抽出器の表現力が乏しく,あるページ内における小さなレイアウトの変化に適応できないため,ラッパの生成に失敗する事があった.本研究ではラッパを複数のラッパで構成するために特殊ラッパと呼ぶラッパを定義し,ラッパを複数の特殊ラッパで表現することで,今まで正確に抽出する事が困難だったページに対しても抽出可能である事を確認した. |
論文 | PDFファイル |