1F3-5in 因果強度を用いた強化学習における価値配分手法

*セッションの無断動画配信はご遠慮下さい。

05月30日(Sat) 13:20〜15:00 F会場(5F北-中講義室 (594))
1F3 「強化学習（１）」
06月01日(Mon) 09:00〜11:00 F会場(5F北-中講義室 (594))
3O1 「インタラクティブセッション」

演題番号	1F3-5in
題目	因果強度を用いた強化学習における価値配分手法
著者	小川絢加(東京電機大学理工学部) 澤山熱気(東京電機大学理工学部) 甲野佑(東京電機大学大学院先端科学技術研究科情報学専攻) 高橋達二(東京電機大学理工学部)
時間	05月30日(Sat) 14:40〜15:00【一般口頭発表】 06月01日(Mon) 09:00〜11:00【インタラクティブ発表】
概要	強化学習において遅延して与えられる報酬を，それまでの状態行動系列に対して，どのように配分して価値付けるかは大きな問題である．この問題にはTD(λ)のように，その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である．本研究では人間の感覚に倣った因果強度の評価手法を用いて，単純な時間経過ではない価値の配分を行う手法を新たに提案し，従来手法との比較を行う．
論文	PDFファイル