1L4-OS-24b-4 知識利用と探索のジレンマに対する因果的価値関数の適用とそのベイズ的分析

*セッションの無断動画配信はご遠慮下さい。

演題番号	1L4-OS-24b-4
題目	知識利用と探索のジレンマに対する因果的価値関数の適用とそのベイズ的分析
著者	大用庫智(東京電機大学大学院　先端科学技術研究科　情報学専攻) 高橋達二(東京電機大学理工学部情報システムデザイン学系)
時間	06月04日(Tue) 17:20〜17:40
概要	不確実な環境下における学習をモデリングする強化学習の中でも最も基礎的な多本腕バンディット問題において、人間の柔軟な因果的直観を表現する価値関数（LSモデル）が効率的に知識利用と探索を両立し高成績を修めている。我々はLSにベイズ的分析を施し、モデルの意味について考察するとともに、価値基準という最も直感的なパラメータにより最適性を得ることが出来る事を示し、この知識利用と探索の両立の機構を明らかにする。
論文	PDFファイル