/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2015ホーム /

2L1-1 満足化とその基準の動的な更新による強化学習の促進

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2015 このエントリーをはてなブックマークに追加

05月31日(Sun) 09:00〜10:20 L会場(研究棟2F-中講義室 (R791))
2L1 「強化学習(2)」

演題番号2L1-1
題目満足化とその基準の動的な更新による強化学習の促進
著者甲野 佑(東京電機大学大学院 先端科学技術研究科 情報学専攻)
高橋 達二(東京電機大学 理工学部)
時間05月31日(Sun) 09:00〜09:20
概要環境から得られる報酬を手掛かりに試行錯誤して良い行動系列を獲得する強化学習において,人間ならば主観的な基準に応じて方策を緩く切り替える事で柔軟に環境に対応していると考えられる(満足化).上記の振る舞いを考慮した価値関数(LSX)は単純な状態構造の学習課題において良い結果を示したが,本研究ではより一般的な強化学習課題における満足化の機能を論じ,LSXを一般化した新しい強化学習アルゴリズムを提案する.
論文PDFファイル