3O1-6in 逆強化学習による報酬関数推定における目的関数の影響の考察

*セッションの無断動画配信はご遠慮下さい。

05月14日(Wed) 09:00〜10:40 O会場(-ひめぎんホール 3F会議室ロビー他)
3O1 「インタラクティブセッション」

演題番号	3O1-6in
題目	逆強化学習による報酬関数推定における目的関数の影響の考察
著者	北里勇樹(千葉大学大学院工学研究科建築・都市科学専攻) 荒井幸代(千葉大学大学院工学研究科都市環境システムコース)
時間	05月14日(Wed) 09:00〜10:40
概要	逆強化学習は，方策を所与として報酬関数を推定する枠組であり，報酬設定が困難な問題に対して期待されている．逆強化学習の概念が最初に示されたRussellらによる方法では，各状態の最適行動と，それ以外の行動のQ値の差を全状態に対して算出し，この合計を最大化する問題として定式化されている．本論文では，各状態毎の差を最大化する多目的最適化問題とした解法を示し，得られた報酬関数を評価する．
論文	PDFファイル