/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2014ホーム /

2H1-4 多腕バンディットにおけるリグレットの非線形拡張

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2014 このエントリーをはてなブックマークに追加

05月13日(Tue) 09:00〜10:20 H会場(102人-ひめぎんホール 第8会議室)
2H1 「強化学習の基礎」

演題番号2H1-4
題目多腕バンディットにおけるリグレットの非線形拡張
著者梁 曽漢(東京大学大学院情報理工学系研究科数理情報学専攻)
小宮山 純平(東京大学大学院情報理工学系研究科数理情報学専攻)
大岩 秀和(東京大学情報理工学系研究科数理情報学専攻)
佐藤 一誠(東京大学 情報基盤センター)
中川 裕志(東京大学情報基盤センター)
時間05月13日(Tue) 10:00〜10:20
概要多腕バンディット問題における戦略は、報酬に線形に比例する効用を最大化する目的のもとに設計されてきた。しかしながら、ユーザにとっての効用は報酬に線形に比例するとは限らない。本研究で提案する非線形な効用関数を最大化する戦略は、試行回数が少ない場合にリスク回避のために探索を増やし、報酬を安定化させることを可能とする。また、複数のデータセットにおいて従来戦略より良い性質が得られることを実験的に検証した。
論文PDFファイル