4C2-2in2 生存を目的とする満足化強化学習

*セッションの無断動画配信はご遠慮下さい。

05月26日(Fri) 14:10〜15:50 C会場(ウインクあいち-9F 902会議室)
4C2 機械学習「機械学習-強化学習（２）」
05月26日(Fri) 09:30〜11:10 Q会場(ウインクあいち-8F 展示場)
4Q1 インタラクティブセッション「インタラクティブセッション(2)」

演題番号	4C2-2in2
題目	生存を目的とする満足化強化学習
著者	牛田有哉(東京電機大学大学院理工学研究科) 甲野佑(東京電機大学理工学部) 高橋達二(東京電機大学理工学部)
時間	05月26日(Fri) 14:30〜14:50【一般口頭発表】 05月26日(Fri) 09:30〜11:10【インタラクティブ発表】
概要	強化学習の報酬の最大化というゴールよりも現実的なのは，エージェントの生存にかかるコスト(大局基準)と報酬との釣り合いを満たすことであり，これには人間や動物の意思決定方法としての満足化が有効であろう．本研究では満足化強化学習手法(RS)に大局基準を局所的な状態へと割り振る手法を付加し，格子空間上のスイッチを決められた順番で通ることにより報酬が得られるスイッチワールドタスクを用いて有用性の検証を行う．
論文	PDFファイル