2P4-5 POMDPs環境下におけるProfit SharingとGAによるサブゴール創発を行う強化学習法

*セッションの無断動画配信はご遠慮下さい。

05月24日(Wed) 17:50〜19:30 P会場(ウインクあいち-10F 1008会議室)
2P4 機械学習「機械学習-強化学習（１）」

演題番号	2P4-5
題目	POMDPs環境下におけるProfit SharingとGAによるサブゴール創発を行う強化学習法
著者	鈴木晃平(名古屋工業大学大学院工学研究科情報工学専攻) 加藤昇平(名古屋工業大学大学院工学研究科情報工学専攻／情報科学フロンティア研究院)
時間	05月24日(Wed) 19:10〜19:30
概要	強化学習では，状態の混同が起こり正しく学習できない不完全知覚問題が存在する．解決手法として，不完全知覚が起こっている状態をサブタスクに分割するHQ-learningや，強化学習の一種であるProfit Sharing（PS）が存在する．しかし双方とも学習効率や局所解において欠点がある．本稿では，PSと遺伝的アルゴリズムを組み合せた新たな手法を提案し、その有効性を比較実験により検証する．
論文	PDFファイル