/ プログラム / 発表一覧 / 著者一覧 / JSAI2007 ホーム

3D9-3 外部報酬に導く内発的報酬の生成機構

6月22日(金) 14:30〜16:10 D会場
強化学習

演題番号3D9-3
題目外部報酬に導く内発的報酬の生成機構
著者竹内 誉羽 (株式会社ホンダ・リサーチ・インスティチュート・ジャパン)
庄野 修 (株式会社ホンダ・リサーチ・インスティチュート・ジャパン)
辻野 広司 ((株)ホンダ・リサーチ・インスティチュート・ジャパン)
時間6月22日(金) 15:10〜15:30
概要強化学習等において、内発的報酬を使った研究がいくつかある。この中で内発的報酬を使って外部報酬に導くような機構を提案しているものがある(A. Barto, S. Singh, N. Chentanez, 2004)。この研究では特定のイベントに対して、内発的報酬が与えられるようになっており、また決定論的な遷移にしか対応していなかった。本研究ではこの前提条件をはずして、かつある程度汎用性を持たせた機構を提案する。この機構の基本はDoya等が提案しているModule強化学習と、状態予測誤差との組み合わせである。これにより確率的な状態遷移にまで対応できることを示す。
論文PDFファイル

/ プログラム / 発表一覧 / 著者一覧 / JSAI2007 ホーム