本討論会の詳細は,人工知能学会誌 Vol.24 No.1 に掲載の活動報告「イベントだより:データマイニングと統計数理研究会」をご覧下さい.
「データに関わる人たちのすれちがい」神嶌 敏弘 (産業技術総合研究所)
発表資料のダウンロード
手法を作る人の間のすれちがい
- 機械学習(有用性)統計(妥当性)データベース(効率性)をそれぞれ重視
- 実用的なデータ解析にはどれも重要な要素なので,あまり一つの要因にはこだわりすぎない
手法を作る人と使う人のすれちがい
-
データ分析のときに何を重視するか?
- 作る人:分析手法に思い入れがあるので,解析手法が正しく使われ,結果が妥当であることを重視
- 使う人:データに思い入れがあるので,データから期待した結果がでることを重視
- データ分析はデータのモデリング次第で結果が変わる
- 「あるモデルという見方の下では,こういうことがいえる」ということしか帰納的にはいえない
- 作る人:そんな弱い前提とこんな少ないデータで結論を出せと言われても困る
- 使う人:データはあるのに結果が出ないのでは話にならない
- モデルの前提をほどほどに厳密に守りつつ,多少強引な仮説も導入しつつ,バランスをとると実際には興味深く,かつ妥当な結果になる
- KDDプロセス
- データ分析は,ブラックボックスとしては使えない.
- 目的や性質に合わせて,いろいろな道具を利用して,反復的に結果を得る.
- 作る人と使う人が歩み寄るためには?
- 作る人:使用目的や特徴別にまとめた使う視点からの体系の構築
- 使う人:データ分析をおまけのブラックボックスと思わず,データ収集と一環したプロセスと考える
∫議論 dP(雑談) + ε(ぐち)
データを分析するときの相談
- こういう結果を出したいが,データ解析にあう手法はないかという相談がある
- こういうときは,データを取るときから相談してほしい
- このデータを分析すればこういう結論になるはずだが,分析するとそうならないのはなぜか? → 無茶いわないで‥‥
- データ分析はわからないので任せるとか言う人は見捨てて,データ分析『にも』熱心な人の相談にのる.
目的志向の視点からの情報提供をするには
- 教科書は手法の関連性からの体系付けだが,パソコンの『逆引き事典』のようなことはできないか
- 90年代初頭には,こうした目的での統計エキスパートシステムの形式的な分析の議論が盛んだった
- ドメイン知識をモデルに組み込めないので妥当な分析ができず,誤用を助長しただけだった
- 事典などに目的別にマトリックスにまとめたものもあるが,やみくもに使っても,やはりモデルを軽視しているので,うまくいかない
作る人と使う人のすれちがい
- 作る人は,結果を出せないというより,『間違った』結果を出したくないという思い
- 結論を出せない人と出したい人のすれちがいの例『クラスタの数』
- クラスタ数の評価指標はいろいろあるが,それぞれ何かしらの前提がある
- 前提なしに『正しさ』をいうのは無理だが,それを求められる
- 論文や報告書などの正当性の担保にされても困る
- 作る人は間違いではない結論を伝えるが,使う人からみればなんの結論にもなっていないという事態なのでは?
- ツールとして使う人は何かしらの根拠があればよいのでは?
- データ分析においては,作る人も使う人も「言い切る」のは無理
作るひとたちの間で,互いの分野はどう見えているか?何を期待するのか?
- 機械学習・統計はかなり近づいた.データベースもバイオ関係ではよく利用される
- 海外のデータマイニングのコミュニティは機械学習とデータベースの人がくっついているが,日本だと機械学習と統計のような気がする
- 統計側から見ると,データマイニングは独自のコミュニティ,独自・特異な問題を解いているようにみえる
- 世間的に見ると,統計とか,データマイニングとかの差は見えない
- AIから見ると,統計のサブカテゴリが分からない
- 実は統計の人も,その違いを統計以外の人に分かりやすく説明するのは難しい
作る人の間や,作る人・使う人の間の歩み寄りのためには?
- もっと実際に会う機会を増やすしかないのでは?
- 言葉のすりあわせとかからして難しい
- 使う人と会うと目的が漠然としていて,なかなか取り付けない
樋口 知之 (統計数理研究所)
発表資料のダウンロード
- 大量データ処理関連研究領域
- 統計科学(生成モデル構成),機械学習(判別モデル),データマイニング(パターン認識,高速探索)
- 理論と実験+シミュレーション(第3の科学),大量データ処理(第4の科学,数学への憧れがある)
- 演繹的:理論,シミュレーション ← 『物理帝国』主義(本物を求める)
- 帰納的:実験,大量データ処理 ← 贋作の尊重
- 帰納のモデル化=見よう見まねの科学
- モデラーの教育が重要
arg min{爆弾発言} 議論
- 『物理帝国』の人はデータ同化をどう思っている?
- データに基づくモデルは贋作なので入れたくはないが,精度は上がるので悩ましく思っている
- 『物理帝国』の人たちは誰が,何が本物と決めているのか?
- コミュニティ全体のコンセンサスでそう決めているように見える
- データ分析を広めるのにモデラーの教育が重要
- それにはお金が必要だが,ここで『物理帝国』的世界観が我々の前に立ちはだかっている
- 我々の方法は,そこそこ上手くいくことを武器にする
- 『 物理帝国』的世界観を打ち破るには,演繹理論の弱い領域で成果を出すのが手っ取り早い