/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2017ホーム /

2P4-4in1 逐次的自然方策勾配推定のための適応的学習率

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2017 このエントリーをはてなブックマークに追加

05月24日(Wed) 17:50〜19:30 P会場(ウインクあいち-10F 1008会議室)
2P4 機械学習「機械学習-強化学習(1)」
05月25日(Thu) 09:30〜11:10 Q会場(ウインクあいち-8F 展示場)
3Q1 インタラクティブセッション「インタラクティブセッション(1)」

演題番号2P4-4in1
題目逐次的自然方策勾配推定のための適応的学習率
著者岩城 諒(大阪大学大学院工学研究科知能機能創成工学専攻)
横山 裕樹(玉川大学脳科学研究所)
浅田 稔(大阪大学大学院工学研究科知能機能創成工学専攻)
時間05月24日(Wed) 18:50〜19:10【一般口頭発表】
05月25日(Thu) 09:30〜11:10【インタラクティブ発表】
概要自然方策勾配の逐次推定はTD誤差の線形近似という形式で表現できるが,その安定性は学習率などの設定に対し敏感である.本研究では,パラメータ更新が停留点を越えないことを保証する Online importance weight aware update を,逐次的自然方策勾配法に適用する.理論解析により,従来法の不安定性と提案法の安定性を示す.さらに,数値実験により提案法の頑健さを示す.
論文PDFファイル