/ プログラム/ 発表一覧/ 著者一覧企業展示一覧/ jsai2014ホーム /

2N5-OS-03b-1 LS-Q学習による探索と停滞ループの回避

*セッションの無断動画配信はご遠慮下さい。

Tweet #jsai2014 このエントリーをはてなブックマークに追加

05月13日(Tue) 17:20〜19:00 N会場(60人-看護研修センター 訪問看護研修室(1+2))
2N5-OS-03b オーガナイズドセッション「OS-3 内部観測と探索 (2)」

演題番号2N5-OS-03b-1
題目LS-Q学習による探索と停滞ループの回避
著者浦上 大輔(東京工科大学コンピュータサイエンス学部)
高橋 達二(東京電機大学 理工学部 情報システムデザイン学系)
高橋 優太(東京電機大学理工学部理工学科情報システムデザイン学系)
アルアルワン アリー(東京工科大学バイオ・情報メディア研究科)
松尾 芳樹(東京工科大学コンピュータサイエンス学部)
時間05月13日(Tue) 17:20〜17:40
概要人間の推論傾向(論理を混同する傾向)を模倣してQ学習に応用する強化学習アルゴリズム(LS-Q学習)は,不確実性の大きい環境において適応的に探索を行うということが明らかになりつつある.本研究では,大車輪ロボットの運動獲得を例として,LS-Q学習が報酬の少ない状態でのループ(停滞ループ)を巧みに回避する様相を解析し,普遍的な探索理論における局所性や論理階層の混同あるいは内部観測の意義と効用を考察する.
論文PDFファイル