/ プログラム/ 発表一覧/ 著者一覧/ 企業展示一覧/ jsai2012ホーム /

3B2-R-2-2 連続値入力問題のためのガウス型状態表現を用いたTD学習法

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2012 このエントリーをはてなブックマークに追加

06月14日(Thu) 13:30〜16:30 B会場(-山口県教育会館/第一研修室(141))
3B2-R-2 機械学習「機械学習(2)」

演題番号3B2-R-2-2
題目連続値入力問題のためのガウス型状態表現を用いたTD学習法
著者藤井 菜摘子(大阪市立大学 大学院 工学研究科 電子情報系専攻)
上野 敦志(大阪市立大学 大学院 工学研究科 電子情報系専攻)
田窪 朋仁(大阪市立大学 大学院 工学研究科 電子情報系専攻)
辰巳 昭治(大阪市立大学 大学院 工学研究科 電子情報系専攻)
時間06月14日(Thu) 13:50〜14:10
概要連続値の知覚入力を持つ問題環境に強化学習を適用する際,問題環境に適した離散化を行わなければ不完全知覚問題が発生してしまう.これに対応するため,ガウス型の状態関数を用いた手法が提案されている.本研究では行動にノイズを含む問題環境への対応を考え,この離散化手法をTD学習に適用した手法を提案する.本手法の有効性を,コンピュータシミュレーション上の経路探索問題で示す.
論文PDFファイル