演題番号 | 3D9-3 |
---|---|
題目 | 外部報酬に導く内発的報酬の生成機構 |
著者 | 竹内 誉羽 (株式会社ホンダ・リサーチ・インスティチュート・ジャパン) 庄野 修 (株式会社ホンダ・リサーチ・インスティチュート・ジャパン) 辻野 広司 ((株)ホンダ・リサーチ・インスティチュート・ジャパン) |
時間 | 6月22日(金) 15:10〜15:30 |
概要 | 強化学習等において、内発的報酬を使った研究がいくつかある。この中で内発的報酬を使って外部報酬に導くような機構を提案しているものがある(A. Barto, S. Singh, N. Chentanez, 2004)。この研究では特定のイベントに対して、内発的報酬が与えられるようになっており、また決定論的な遷移にしか対応していなかった。本研究ではこの前提条件をはずして、かつある程度汎用性を持たせた機構を提案する。この機構の基本はDoya等が提案しているModule強化学習と、状態予測誤差との組み合わせである。これにより確率的な状態遷移にまで対応できることを示す。 |
論文 | PDFファイル |