演題番号 | 1P2-12in |
---|---|
題目 | 認知バイアス調整機構 LS の Q 学習への実装とその機能 |
著者 | 清水 隆宏(東京電機大学理工学部情報システムデザイン学系) 横川 純貴(東京電機大学理工学部情報システムデザイン学系) 甲野 佑(東京電機大学大学院 理工学研究科 情報学専攻) 高橋 達二(東京電機大学 理工学部 情報システムデザイン学系) |
時間 | 06月01日(Wed) 18:10〜20:10 |
概要 | LSモデルは篠原修二が2006年に発見した2x2分割表上に定義される確率論的な式であり、対称性・相互排他性といった人間の非論理的な推論バイアスを忠実に記述する。LSは人間の因果帰納の傾向性を最も良く記述し、また価値関数として使用すると、バンディット問題や語彙獲得、ゲーム理論において非常に高い性能を示す。本研究ではLSをQ学習におけるQ値の計算に使用することで、強化学習一般における有効性を検証する。 |
論文 | PDFファイル |