05月24日(Wed) 17:50〜19:30 P会場(ウインクあいち-10F 1008会議室)
演題番号 | 2P4-4in1 |
---|---|
題目 | 逐次的自然方策勾配推定のための適応的学習率 |
著者 | 岩城 諒(大阪大学大学院工学研究科知能機能創成工学専攻) 横山 裕樹(玉川大学脳科学研究所) 浅田 稔(大阪大学大学院工学研究科知能機能創成工学専攻) |
時間 | 05月24日(Wed) 18:50〜19:10【一般口頭発表】05月25日(Thu) 09:30〜11:10【インタラクティブ発表】 |
概要 | 自然方策勾配の逐次推定はTD誤差の線形近似という形式で表現できるが,その安定性は学習率などの設定に対し敏感である.本研究では,パラメータ更新が停留点を越えないことを保証する Online importance weight aware update を,逐次的自然方策勾配法に適用する.理論解析により,従来法の不安定性と提案法の安定性を示す.さらに,数値実験により提案法の頑健さを示す. |
論文 | PDFファイル |