/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2015ホーム /

1F3-5in 因果強度を用いた強化学習における価値配分手法

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2015 このエントリーをはてなブックマークに追加

05月30日(Sat) 13:20〜15:00 F会場(5F北-中講義室 (594))
1F3 「強化学習(1)」
06月01日(Mon) 09:00〜11:00 F会場(5F北-中講義室 (594))
3O1 「インタラクティブセッション」

演題番号1F3-5in
題目因果強度を用いた強化学習における価値配分手法
著者小川 絢加(東京電機大学 理工学部)
澤山 熱気(東京電機大学 理工学部)
甲野 佑(東京電機大学大学院 先端科学技術研究科 情報学専攻)
高橋 達二(東京電機大学 理工学部)
時間05月30日(Sat) 14:40〜15:00【一般口頭発表】
06月01日(Mon) 09:00〜11:00【インタラクティブ発表】
概要強化学習において遅延して与えられる報酬を,それまでの状態行動系列に対して,どのように配分して価値付けるかは大きな問題である.この問題にはTD(λ)のように,その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である.本研究では人間の感覚に倣った因果強度の評価手法を用いて,単純な時間経過ではない価値の配分を行う手法を新たに提案し,従来手法との比較を行う.
論文PDFファイル