/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2014ホーム /

3O1-6in 逆強化学習による報酬関数推定における目的関数の影響の考察

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2014 このエントリーをはてなブックマークに追加

05月14日(Wed) 09:00〜10:40 O会場(-ひめぎんホール 3F会議室ロビー他)
3O1 「インタラクティブセッション」

演題番号3O1-6in
題目逆強化学習による報酬関数推定における目的関数の影響の考察
著者北里 勇樹(千葉大学大学院工学研究科建築・都市科学専攻)
荒井 幸代(千葉大学大学院工学研究科都市環境システムコース)
時間05月14日(Wed) 09:00〜10:40
概要逆強化学習は,方策を所与として報酬関数を推定する枠組であり,報酬設定が困難な問題に対して期待されている.逆強化学習の概念が最初に示されたRussellらによる方法では,各状態の最適行動と,それ以外の行動のQ値の差を全状態に対して算出し,この合計を最大化する問題として定式化されている.本論文では,各状態毎の差を最大化する多目的最適化問題とした解法を示し,得られた報酬関数を評価する.
論文PDFファイル