1O2-OS-18-10 順序学習に基づく逆強化学習による対話制御

*セッションの無断動画配信はご遠慮下さい。

06月12日(Tue) 15:30〜20:00 O会場(-クリエイティブ・スペース赤れんが／2F)
1O2-OS-18 オーガナイズドセッション「OS-18 知的対話システム」

演題番号	1O2-OS-18-10
題目	順序学習に基づく逆強化学習による対話制御
著者	杉山弘晃(NTTコミュニケーション科学基礎研究所) 目黒豊美(NTTコミュニケーション科学基礎研究所) 南泰浩(NTTコミュニケーション科学基礎研究所)
時間	06月12日(Tue) 18:50〜19:10
概要	強化学習において，適切な報酬関数の設定は難しい問題である．この問題に対し，エキスパートの行動列を入力とし，この行動列を再現する報酬関数を推定する逆強化学習が注目されている．従来の逆強化学習では，訓練行動列は全て同一の報酬関数に基づくことを仮定していた．本研究では，異なる報酬関数に基づく行動列から報酬関数を推定する，順序学習に基づく逆強化学習を提案し，シミュレーション実験を通してその有効性を示す．
論文	PDFファイル