4D1-OS-37c-2 確率変数変換の学習によるノンパラメトリックな確率的方策の獲得

*セッションの無断動画配信はご遠慮下さい。

演題番号	4D1-OS-37c-2
題目	確率変数変換の学習によるノンパラメトリックな確率的方策の獲得
著者	横山裕樹(玉川大学脳科学研究所) 岡田浩之(玉川大学脳科学研究所)
時間	05月26日(Fri) 12:30〜12:50
概要	Actor-critic法や方策勾配法は行動や制御値として連続値を生成する方策の獲得を得意とするが，その方策空間は正規分布などに限定されることが多い．本研究では，確率分布をパラメトリックに表現する代わりに，既知のノイズ分布からの変数変換によって間接的に表現し，ノンパラメトリックな確率的方策を獲得する強化学習手法を提案する．
論文	PDFファイル