05月13日(Tue) 17:20〜19:00 N会場(60人-看護研修センター 訪問看護研修室(1+2))
演題番号 | 2N5-OS-03b-1 |
---|---|
題目 | LS-Q学習による探索と停滞ループの回避 |
著者 | 浦上 大輔(東京工科大学コンピュータサイエンス学部) 高橋 達二(東京電機大学 理工学部 情報システムデザイン学系) 高橋 優太(東京電機大学理工学部理工学科情報システムデザイン学系) アルアルワン アリー(東京工科大学バイオ・情報メディア研究科) 松尾 芳樹(東京工科大学コンピュータサイエンス学部) |
時間 | 05月13日(Tue) 17:20〜17:40 |
概要 | 人間の推論傾向(論理を混同する傾向)を模倣してQ学習に応用する強化学習アルゴリズム(LS-Q学習)は,不確実性の大きい環境において適応的に探索を行うということが明らかになりつつある.本研究では,大車輪ロボットの運動獲得を例として,LS-Q学習が報酬の少ない状態でのループ(停滞ループ)を巧みに回避する様相を解析し,普遍的な探索理論における局所性や論理階層の混同あるいは内部観測の意義と効用を考察する. |
論文 | PDFファイル |