3D9-3　外部報酬に導く内発的報酬の生成機構

6月22日(金) 14:30～16:10　D会場
強化学習

演題番号	3D9-3
題目	外部報酬に導く内発的報酬の生成機構
著者	竹内誉羽 (株式会社ホンダ・リサーチ・インスティチュート・ジャパン) 庄野修 (株式会社ホンダ・リサーチ・インスティチュート・ジャパン) 辻野広司 (（株）ホンダ・リサーチ・インスティチュート・ジャパン)
時間	6月22日(金) 15:10～15:30
概要	強化学習等において、内発的報酬を使った研究がいくつかある。この中で内発的報酬を使って外部報酬に導くような機構を提案しているものがある（A. Barto, S. Singh, N. Chentanez, 2004）。この研究では特定のイベントに対して、内発的報酬が与えられるようになっており、また決定論的な遷移にしか対応していなかった。本研究ではこの前提条件をはずして、かつある程度汎用性を持たせた機構を提案する。この機構の基本はDoya等が提案しているModule強化学習と、状態予測誤差との組み合わせである。これにより確率的な状態遷移にまで対応できることを示す。
論文	PDFファイル