06月12日(Tue) 15:30〜20:00 O会場(-クリエイティブ・スペース赤れんが/2F)
演題番号 | 1O2-OS-18-10 |
---|---|
題目 | 順序学習に基づく逆強化学習による対話制御 |
著者 | 杉山 弘晃(NTTコミュニケーション科学基礎研究所) 目黒 豊美(NTTコミュニケーション科学基礎研究所) 南 泰浩(NTTコミュニケーション科学基礎研究所) |
時間 | 06月12日(Tue) 18:50〜19:10 |
概要 | 強化学習において,適切な報酬関数の設定は難しい問題である.この問題に対し,エキスパートの行動列を入力とし,この行動列を再現する報酬関数を推定する逆強化学習が注目されている.従来の逆強化学習では,訓練行動列は全て同一の報酬関数に基づくことを仮定していた.本研究では,異なる報酬関数に基づく行動列から報酬関数を推定する,順序学習に基づく逆強化学習を提案し,シミュレーション実験を通してその有効性を示す. |
論文 | PDFファイル |