05月26日(Fri) 14:10〜15:50 C会場(ウインクあいち-9F 902会議室)
演題番号 | 4C2-2in2 |
---|---|
題目 | 生存を目的とする満足化強化学習 |
著者 | 牛田 有哉(東京電機大学大学院 理工学研究科) 甲野 佑(東京電機大学理工学部) 高橋 達二(東京電機大学 理工学部) |
時間 | 05月26日(Fri) 14:30〜14:50【一般口頭発表】05月26日(Fri) 09:30〜11:10【インタラクティブ発表】 |
概要 | 強化学習の報酬の最大化というゴールよりも現実的なのは,エージェントの生存にかかるコスト(大局基準)と報酬との釣り合いを満たすことであり,これには人間や動物の意思決定方法としての満足化が有効であろう.本研究では満足化強化学習手法(RS)に大局基準を局所的な状態へと割り振る手法を付加し,格子空間上のスイッチを決められた順番で通ることにより報酬が得られるスイッチワールドタスクを用いて有用性の検証を行う. |
論文 | PDFファイル |