05月30日(Sat) 17:20〜19:00 L会場(研究棟2F-中講義室 (R791))
演題番号 | 1L5-1 |
---|---|
題目 | 強化学習を用いた繰り返しゲームにおける戦略の学習の高速化 |
著者 | 藤田 渉(大阪大学大学院情報科学研究科情報数理学専攻) 森山 甲一(大阪大学 産業科学研究所) 福井 健一(大阪大学 産業科学研究所) 沼尾 正行(大阪大学 産業科学研究所) |
時間 | 05月30日(Sat) 17:20〜17:40 |
概要 | 2つのエージェントが非ゼロ和繰り返しゲームを行う状況を考える。既存の強化学習手法では自己の報酬を最も大きくする行動を学習する場合、多くのインタラクションが必要になる。この問題を解決するために、相手の戦略を推定し、それを行動価値関数に反映させることで従来よりも素早く学習を行うアルゴリズムを構築する。10種類のゲームにおいて様々な学習手法の相手と平均獲得報酬を比較して、アルゴリズムの性能を確認する。 |
論文 | PDFファイル |