/ 戻る / プログラム / 発表一覧 / 著者一覧 / JSAI2003 ホーム /
演題番号 | 1C5-05 |
---|---|
題目 | 発信者情報が付与されたテキストコーパスの分析について |
著者 | 相澤 彰子 (国立情報学研究所) |
時間 | 6月25日(水) 18:00〜18:20 |
セッション | 文書データベース (16:40〜18:40 C 中会議室2) |
概要 | 記者名が明らかにされた新聞記事、著者名 が付与された論文等のコーパスの分析を試 みる。まず、接尾辞木構造を利用して一致 度の高い文書グループと最長一致文字列を 高速に抽出するクラスタリング手法を提案 する。次にこの手法を用いて、テキスト中 で再利用される文字列の計量やテキストに 対する著者判別およびクレジット記載に関 する数量的な分析を行う。 |
論文 | PDFファイル, |
/ 戻る / プログラム / 発表一覧 / 著者一覧 / JSAI2003 ホーム /