/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2014ホーム /

2H1-1 部分観測環境のパラメトリック記述に基づく高速モデルパラメータ逆強化学習プログラム

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2014 このエントリーをはてなブックマークに追加

05月13日(Tue) 09:00〜10:20 H会場(102人-ひめぎんホール 第8会議室)
2H1 「強化学習の基礎」

演題番号2H1-1
題目部分観測環境のパラメトリック記述に基づく高速モデルパラメータ逆強化学習プログラム
著者牧野 貴樹(東京大学 生産技術研究所)
城 真範(産総研 HTRI 情報数理)
合原 一幸(東京大学生産技術研究所)
時間05月13日(Tue) 09:00〜09:20
概要筆者らは、徒弟学習の拡張として、エキスパートの行動系列から部分観測環境の未知のバラメータを推定する一般化逆強化学習技術を提案していたが、単純な解法では繰り返し強化学習ソルバーを呼ぶため計算時間が膨大になること、未知のパラメータが部分的に含まれるような環境を記述する手法が存在しないことという2つの問題があった。本発表では、これらの問題を解決した一般化逆強化学習プログラムLUKEについて発表する。
論文PDFファイル