05月31日(Sun) 09:00〜10:20 L会場(研究棟2F-中講義室 (R791))
演題番号 | 2L1-1 |
---|---|
題目 | 満足化とその基準の動的な更新による強化学習の促進 |
著者 | 甲野 佑(東京電機大学大学院 先端科学技術研究科 情報学専攻) 高橋 達二(東京電機大学 理工学部) |
時間 | 05月31日(Sun) 09:00〜09:20 |
概要 | 環境から得られる報酬を手掛かりに試行錯誤して良い行動系列を獲得する強化学習において,人間ならば主観的な基準に応じて方策を緩く切り替える事で柔軟に環境に対応していると考えられる(満足化).上記の振る舞いを考慮した価値関数(LSX)は単純な状態構造の学習課題において良い結果を示したが,本研究ではより一般的な強化学習課題における満足化の機能を論じ,LSXを一般化した新しい強化学習アルゴリズムを提案する. |
論文 | PDFファイル |