06月05日(Wed) 18:00〜20:40 N会場(-商工会議所10F ホール)
演題番号 | 2N5-OS-21b-6 |
---|---|
題目 | 大規模Webクローラの運用事例にみる課題と対策 |
著者 | 藤井 秀明(独立行政法人 情報通信研究機構) 原口 弘志(独立行政法人 情報通信研究機構) 田中 康司(独立行政法人 情報通信研究機構) 泥谷 誠(独立行政法人 情報通信研究機構) 岩瀬 高博(株式会社神戸デジタル・ラボ) 岩爪 道昭(独立行政法人情報通信研究機構) |
時間 | 06月05日(Wed) 20:00〜20:20 |
概要 | 現在、我々は数十億件規模のWebアーカイブ構築を目指し、大規模Webクローラを運用・開発している。このようなビッグデータ級のデータ収集においては、設計段階では想定外の事態や障害が多々発生し得る。その際に重要であるのは、運用の過程で得られたデータを次期研究開発に活かすフィードバックループを形成することである。そこで本発表では、大規模なデータ収集に資する運用事例と解決すべき課題を紹介する。 |
論文 | PDFファイル |