演題番号 | 1C3-1 |
---|---|
題目 | n人ネットワークの繰り返し囚人のジレンマゲームにおける利得設計 |
著者 | 鈴木 香名子(千葉大学大学院工学研究科) 荒井 幸代(千葉大学 大学院工学研究科都市環境システムコース) |
時間 | 06月09日(Wed) 14:35〜14:55 |
概要 | 個々のエージェントの利益と系全体の利益が一致しない環境下でのマルチエージェント強化学習では,協調行動を創発するための報酬設計は重要な課題である。 本稿では3人以上のエージェントがそれぞれ局所的に囚人のジレンマゲームを繰り返す環境を対象とする。 ジレンマ解消のため,エージェントが独自の効用を生成するという報酬設計法を適用し,実験を通じて,系全体の協調が維持される効用の値や学習率について考察する。 |
論文 | PDFファイル |