2N5-OS-03b-1 LS-Q学習による探索と停滞ループの回避

*セッションの無断動画配信はご遠慮下さい。

05月13日(Tue) 17:20〜19:00 N会場(60人-看護研修センター訪問看護研修室(1+2))
2N5-OS-03b オーガナイズドセッション「OS-3 内部観測と探索 (2)」

演題番号	2N5-OS-03b-1
題目	LS-Q学習による探索と停滞ループの回避
著者	浦上大輔(東京工科大学コンピュータサイエンス学部) 高橋達二(東京電機大学理工学部情報システムデザイン学系) 高橋優太(東京電機大学理工学部理工学科情報システムデザイン学系) アルアルワンアリー(東京工科大学バイオ・情報メディア研究科) 松尾芳樹(東京工科大学コンピュータサイエンス学部)
時間	05月13日(Tue) 17:20〜17:40
概要	人間の推論傾向（論理を混同する傾向）を模倣してQ学習に応用する強化学習アルゴリズム（LS-Q学習）は，不確実性の大きい環境において適応的に探索を行うということが明らかになりつつある．本研究では，大車輪ロボットの運動獲得を例として，LS-Q学習が報酬の少ない状態でのループ（停滞ループ）を巧みに回避する様相を解析し，普遍的な探索理論における局所性や論理階層の混同あるいは内部観測の意義と効用を考察する．
論文	PDFファイル