1E4-2in PSO導入による学習効率を考慮した報酬関数の推定

*セッションの無断動画配信はご遠慮下さい。

06月04日(Tue) 16:20〜18:20 E会場(-国際会議場204号室)
1E4 機械学習「機械学習-2」
06月05日(Wed) 13:10〜14:50 E会場(-国際会議場204号室)
203 インタラクティブセッション「インタラクティブセッション」

演題番号	1E4-2in
題目	PSO導入による学習効率を考慮した報酬関数の推定
著者	北里勇樹(千葉大学大学院工学研究科建築・都市科学専攻) 荒井幸代(千葉大学大学院工学研究科都市環境システムコース)
時間	06月04日(Tue) 16:40〜17:00【一般口頭発表】 06月05日(Wed) 13:10〜14:50【インタラクティブ発表】
概要	強化学習は，報酬と呼ばれるスカラー量を手掛かりにゴールに至る適切な行動を獲得する枠組みであるが，ゴールまでに多くの遷移を必要とする大規模な問題では，報酬の遅れによる学習時間の増加が問題となっている。本研究では「望ましい行動系列」を所与とし報酬関数を推定する逆強化学習にPSOを導入し，学習効率を考慮した報酬関数を推定する手法を紹介し，迷路問題を例とした実験結果から，提案法の有効性を考察する。
論文	PDFファイル