1L2-R-7-9 逆強化学習による複数均衡下での均衡収束の実現

*セッションの無断動画配信はご遠慮下さい。

06月12日(Tue) 15:30〜20:00 L会場(-ゆ～あいプラザ山口県社会福祉会館／第2会議室(54))
1L2-R-7 エージェント「エージェント(2)」

演題番号	1L2-R-7-9
題目	逆強化学習による複数均衡下での均衡収束の実現
著者	荒井幸代(千葉大学大学院工学研究科) 鈴木香名子(千葉大学大学院工学研究科) 大喜多周(千葉大学工学部都市環境システム学科)
時間	06月12日(Tue) 18:10〜18:30
概要	ナッシュ均衡が複数存在するゲームでは,エージェントが最適な唯一の解に収束するためのインセンティブが必要となる。本稿では,スタグハントゲームを用いてエージェントが協力してスタグ（鹿）を狙うように導く報酬関数を逆強化学習によって推定する方法を提案する．また，本手法に対して，通常のＱ学習において「スタグを狙う行動を獲得させる」報酬を試行錯誤的に設計する方法とを比較し，提案手法の有用性を示す
論文	PDFファイル