05月24日(Wed) 09:30〜11:10 B会場(ウインクあいち-9F 901会議室)
演題番号 | 2B1-4 |
---|---|
題目 | モデルベース学習を活用したDDPGのサンプル効率分析 |
著者 | 塩谷 碩彬(東京大学) 那須野 薫(東京大学) 松尾 豊(東京大学) |
時間 | 05月24日(Wed) 10:30〜10:50 |
概要 | 深層強化学習は学習に多くの試行回数を必要とする。この問題を緩和する方法としてモデルベース強化学習があり、さらにモデルフリーの強化学習を組み合わせることで環境のモデルによる方策への制約を緩和しようという試みがある。本研究ではモデルベース学習を活用してモデルフリーの深層強化学習の手法であるDeep Deterministic Policy Gradientのサンプル効率が改善されるか否かを分析する。 |
論文 | PDFファイル |