2L1-1 満足化とその基準の動的な更新による強化学習の促進

*セッションの無断動画配信はご遠慮下さい。

05月31日(Sun) 09:00〜10:20 L会場(研究棟2F-中講義室 (R791))
2L1 「強化学習（２）」

演題番号	2L1-1
題目	満足化とその基準の動的な更新による強化学習の促進
著者	甲野佑(東京電機大学大学院先端科学技術研究科情報学専攻) 高橋達二(東京電機大学理工学部)
時間	05月31日(Sun) 09:00〜09:20
概要	環境から得られる報酬を手掛かりに試行錯誤して良い行動系列を獲得する強化学習において，人間ならば主観的な基準に応じて方策を緩く切り替える事で柔軟に環境に対応していると考えられる（満足化）．上記の振る舞いを考慮した価値関数(LSX)は単純な状態構造の学習課題において良い結果を示したが，本研究ではより一般的な強化学習課題における満足化の機能を論じ，LSXを一般化した新しい強化学習アルゴリズムを提案する．
論文	PDFファイル