演題番号 | 1A3-5 |
---|---|
題目 | HTMLタグを用いたWebページのクラスタリング手法 |
著者 | 折原 大 (電気通信大学大学院 電気通信学研究科 システム工学専攻) 塚田 大介 (電気通信大学 電気通信学部 システム工学科) 内海 彰 (電気通信大学大学院 電気通信学研究科 システム工学専攻,電気通信大学 電気通信学部 システム工学科) |
時間 | 6月7日(水) 16:30〜16:50 |
概要 | 本研究では、Webページに特有のHTMLタグの頻度、位置、連なりといった情報を用いたクラスタリング手法を提案する。さらに、tf・idfによる内容に基づくクラスタリング手法と組み合わせた手法を提案する。これらの提案する手法とtf・idfによるクラスタリング手法との比較実験を行なった。 |
論文 | PDFファイル |