演題番号 | 3I2-1 |
---|---|
題目 | 辞書とタグ無しコーパスを用いた固有表現抽出器の学習法 |
著者 | 土田 正明(NEC,東京理科大学) 水口 弘紀(NEC共通基盤ソフトウェア研究所) 久寿居 大(NEC) 大和田 勇人(東京理科大学理工学部経営工学科) |
時間 | 06月19日(Fri) 10:40〜11:00 |
概要 | 本稿では,少量の固有表現とそのクラスを登録した辞書とタグ無しコーパスから固有表現抽出器を学習する方法を述べる.単純に,辞書の固有表現の出現を正例,それ以外を負例とすると,辞書で定義された固有表現ではない(偽の正例),辞書にない固有表現(偽の負例),が含まれる.提案法は,1)偽の学習データを除去して固有表現抽出器を学習,2)固有表現抽出器で辞書を増殖して1に戻る,のブートストラップ法を採用する. |
論文 | PDFファイル |