05月13日(Tue) 09:00〜10:20 H会場(102人-ひめぎんホール 第8会議室)
演題番号 | 2H1-1 |
---|---|
題目 | 部分観測環境のパラメトリック記述に基づく高速モデルパラメータ逆強化学習プログラム |
著者 | 牧野 貴樹(東京大学 生産技術研究所) 城 真範(産総研 HTRI 情報数理) 合原 一幸(東京大学生産技術研究所) |
時間 | 05月13日(Tue) 09:00〜09:20 |
概要 | 筆者らは、徒弟学習の拡張として、エキスパートの行動系列から部分観測環境の未知のバラメータを推定する一般化逆強化学習技術を提案していたが、単純な解法では繰り返し強化学習ソルバーを呼ぶため計算時間が膨大になること、未知のパラメータが部分的に含まれるような環境を記述する手法が存在しないことという2つの問題があった。本発表では、これらの問題を解決した一般化逆強化学習プログラムLUKEについて発表する。 |
論文 | PDFファイル |