1L5-1 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化

*セッションの無断動画配信はご遠慮下さい。

05月30日(Sat) 17:20〜19:00 L会場(研究棟2F-中講義室 (R791))
1L5 「強化学習とエージェント」

演題番号	1L5-1
題目	強化学習を用いた繰り返しゲームにおける戦略の学習の高速化
著者	藤田渉(大阪大学大学院情報科学研究科情報数理学専攻) 森山甲一(大阪大学産業科学研究所) 福井健一(大阪大学産業科学研究所) 沼尾正行(大阪大学産業科学研究所)
時間	05月30日(Sat) 17:20〜17:40
概要	２つのエージェントが非ゼロ和繰り返しゲームを行う状況を考える。既存の強化学習手法では自己の報酬を最も大きくする行動を学習する場合、多くのインタラクションが必要になる。この問題を解決するために、相手の戦略を推定し、それを行動価値関数に反映させることで従来よりも素早く学習を行うアルゴリズムを構築する。10種類のゲームにおいて様々な学習手法の相手と平均獲得報酬を比較して、アルゴリズムの性能を確認する。
論文	PDFファイル