演題番号 | 3E2-01 |
---|---|
題目 | キーワードの特性を利用したスパムブログの収集と分析 |
著者 | 佐藤 有記 (筑波大学大学院システム情報工学研究科) 宇津呂 武仁 (筑波大学大学院システム情報工学研究科) 福原 知宏 (東京大学人工物工学研究センター) 河田 容英 ((株)ナビックス) 村上 嘉陽 ((株)ナビックス) 中川 裕志 (東京大学情報基盤センター図書館電子化部門) 神門 典子 (国立情報学研究所) |
時間 | 6月13日(金) 10:40~11:00 |
概要 | 本研究では,ブログにおいて検索頻度の高いキーワードを主として狙ったスパムブログの問題についての分析を行うことを主目的として,スパムブログデータセットを作成し,スパムブログの分析を進めている.スパムブログデータセットの作成においては,まず,キーワードによって検索されるブログサイトの生起数の推移を観測することによってバースト現象を確認し,バースト日において特に一日の投稿記事数の多いブログサイトを中心にブログサイトの収集を行う.次に,これらのブログサイトに対してスパム・非スパムの識別作業を行うともに,スパムブログに対して,アフィリエイトサイトへのリンクの形態や,ブログ本文中のテキストのコピー元の分類,コピーの際の文書収集手順の分類等のいくつかの観点からスパムブログの類型化を行う.また,同一のスパマーが作成していると思われるスパムブログに対するスパマーの識別結果を付与する.以上の情報を考慮して,スパムブログデータセットを作成する. |
論文 | PDFファイル |