05月13日(Tue) 09:00〜10:20 H会場(102人-ひめぎんホール 第8会議室)
演題番号 | 2H1-4 |
---|---|
題目 | 多腕バンディットにおけるリグレットの非線形拡張 |
著者 | 梁 曽漢(東京大学大学院情報理工学系研究科数理情報学専攻) 小宮山 純平(東京大学大学院情報理工学系研究科数理情報学専攻) 大岩 秀和(東京大学情報理工学系研究科数理情報学専攻) 佐藤 一誠(東京大学 情報基盤センター) 中川 裕志(東京大学情報基盤センター) |
時間 | 05月13日(Tue) 10:00〜10:20 |
概要 | 多腕バンディット問題における戦略は、報酬に線形に比例する効用を最大化する目的のもとに設計されてきた。しかしながら、ユーザにとっての効用は報酬に線形に比例するとは限らない。本研究で提案する非線形な効用関数を最大化する戦略は、試行回数が少ない場合にリスク回避のために探索を増やし、報酬を安定化させることを可能とする。また、複数のデータセットにおいて従来戦略より良い性質が得られることを実験的に検証した。 |
論文 | PDFファイル |