/ プログラム / 発表一覧 / 著者一覧 / JSAI2006 ホーム

1A3-5 HTMLタグを用いたWebページのクラスタリング手法

6月7日(水) 15:10〜16:50 A会場
情報抽出・分類

演題番号1A3-5
題目HTMLタグを用いたWebページのクラスタリング手法
著者折原 大 (電気通信大学大学院 電気通信学研究科 システム工学専攻)
塚田 大介 (電気通信大学 電気通信学部 システム工学科)
内海 彰 (電気通信大学大学院 電気通信学研究科 システム工学専攻,電気通信大学 電気通信学部 システム工学科)
時間6月7日(水) 16:30〜16:50
概要本研究では、Webページに特有のHTMLタグの頻度、位置、連なりといった情報を用いたクラスタリング手法を提案する。さらに、tf・idfによる内容に基づくクラスタリング手法と組み合わせた手法を提案する。これらの提案する手法とtf・idfによるクラスタリング手法との比較実験を行なった。
論文PDFファイル

/ プログラム / 発表一覧 / 著者一覧 / JSAI2006 ホーム