1F3-2 Actor-criticアルゴリズムにおけるactorの効率的学習のためのcriticの学習

*セッションの無断動画配信はご遠慮下さい。

05月30日(Sat) 13:20〜15:00 F会場(5F北-中講義室 (594))
1F3 「強化学習（１）」

演題番号	1F3-2
題目	Actor-criticアルゴリズムにおけるactorの効率的学習のためのcriticの学習
著者	横山裕樹(大阪大学大学院工学研究科知能・機能創成工学専攻) 浅田稔(大阪大学大学院工学研究科知能機能創成工学専攻)
時間	05月30日(Sat) 13:40〜14:00
概要	TD学習は価値関数の学習に広く用いられているが，状態空間が連続である場合や環境が非マルコフ的である場合における最適性について，多くの解析がなされていない．本研究では，木村ら（2000）の提案したactor-criticアルゴリズムをもとにして，criticの学習にTD誤差ではなく新たな基準を用いることで，より頑健性の高いアルゴリズムを提案する．また，その有用性について実験的，解析的に評価する．
論文	PDFファイル