06月04日(Tue) 16:20〜18:20 E会場(-国際会議場204号室)
演題番号 | 1E4-2in |
---|---|
題目 | PSO導入による学習効率を考慮した報酬関数の推定 |
著者 | 北里 勇樹(千葉大学大学院工学研究科建築・都市科学専攻) 荒井 幸代(千葉大学大学院工学研究科都市環境システムコース) |
時間 | 06月04日(Tue) 16:40〜17:00【一般口頭発表】06月05日(Wed) 13:10〜14:50【インタラクティブ発表】 |
概要 | 強化学習は,報酬と呼ばれるスカラー量を手掛かりにゴールに至る適切な行動を獲得する枠組みであるが,ゴールまでに多くの遷移を必要とする大規模な問題では,報酬の遅れによる学習時間の増加が問題となっている。本研究では「望ましい行動系列」を所与とし報酬関数を推定する逆強化学習にPSOを導入し,学習効率を考慮した報酬関数を推定する手法を紹介し,迷路問題を例とした実験結果から,提案法の有効性を考察する。 |
論文 | PDFファイル |