05月30日(Sat) 13:20〜15:00 F会場(5F北-中講義室 (594))
演題番号 | 1F3-5in |
---|---|
題目 | 因果強度を用いた強化学習における価値配分手法 |
著者 | 小川 絢加(東京電機大学 理工学部) 澤山 熱気(東京電機大学 理工学部) 甲野 佑(東京電機大学大学院 先端科学技術研究科 情報学専攻) 高橋 達二(東京電機大学 理工学部) |
時間 | 05月30日(Sat) 14:40〜15:00【一般口頭発表】06月01日(Mon) 09:00〜11:00【インタラクティブ発表】 |
概要 | 強化学習において遅延して与えられる報酬を,それまでの状態行動系列に対して,どのように配分して価値付けるかは大きな問題である.この問題にはTD(λ)のように,その状態への過去の訪問から現在までの時間経過を用いて価値を分配する手法を用いるのが一般的である.本研究では人間の感覚に倣った因果強度の評価手法を用いて,単純な時間経過ではない価値の配分を行う手法を新たに提案し,従来手法との比較を行う. |
論文 | PDFファイル |