06月04日(Tue) 16:20〜18:20 L会場(-商工会議所9F 95-97号室)
演題番号 | 1L4-OS-24b-4 |
---|---|
題目 | 知識利用と探索のジレンマに対する因果的価値関数の適用とそのベイズ的分析 |
著者 | 大用 庫智(東京電機大学大学院 先端科学技術研究科 情報学専攻) 高橋 達二(東京電機大学 理工学部 情報システムデザイン学系) |
時間 | 06月04日(Tue) 17:20〜17:40 |
概要 | 不確実な環境下における学習をモデリングする強化学習の中でも最も基礎的な多本腕バンディット問題において、人間の柔軟な因果的直観を表現する価値関数(LSモデル)が効率的に知識利用と探索を両立し高成績を修めている。我々はLSにベイズ的分析を施し、モデルの意味について考察するとともに、価値基準という最も直感的なパラメータにより最適性を得ることが出来る事を示し、この知識利用と探索の両立の機構を明らかにする。 |
論文 | PDFファイル |