演題番号 | 1G3-04 |
---|---|
題目 | ドキュメント画像から文書検索を行うためのXML定義の提案 |
著者 | 松本 馨 (学校法人産業能率大学総合研究所) 櫻田 武嗣 (東京農工大学総合情報メディアセンター) 中川 正樹 (東京農工大学工学部情報コミュニケーション工学科) |
時間 | 6月2日(水) 17:00〜17:20 |
概要 | 近年、共通の仕様を定めることでデータの相互運用性を高め、一般に普及させるためのXML形式が多く見られるようになってきた。 OCRを使用したドキュメント管理システムは、既に多くの製品が存在し、運用されている。しかし、これらは動作するプラットフォームが限られていることや、データの詳細仕様が明らかでないこと、そのデータを利用した新たなアプリケーション開発が第三者には困難であることが問題として挙げられる。また、画像から文字列への全置き換えを前提としているものが多く、認識結果を確認・訂正する作業が作業者にとって大きな負担となっている。 そこで、ドキュメント画像のOCR結果を仕様の明らかなXML形式で保存し、それを文書検索に利用するためのXML定義の提案を行う。 |
論文 | PDFファイル, |