演題番号 | 2B3-1 |
---|---|
題目 | 教師情報を必要としないWebページ群の主要コンテンツ自動抽出 |
著者 | 吉田 光男(筑波大学大学院) 山本 幹雄(筑波大学大学院システム情報工学研究科) |
時間 | 06月18日(Thu) 15:50〜16:10 |
概要 | 近年のCMSの普及により、Webページにメニューや著作権表示などが過剰に付加され、ページに占める主要コンテンツは縮小している。 本論文では、事前に教師データを準備することなく、また各種閾値を新たに決定することなく、よりシンプルなアルゴリズムで、Webページ群から主要コンテンツを抽出するソフトウェアを提案し、Web上に存在するニュースから主要コンテンツを抽出した実験結果について報告する。 |
論文 | PDFファイル |