1D2-OS6-5 状態行動集合価値関数を用いた時間推移対象向け強化学習手法の研究

演題番号	1D2-OS6-5
題目	状態行動集合価値関数を用いた時間推移対象向け強化学習手法の研究
著者	若原拓己(公立はこだて未来大学大学院) 三上貞芳(公立はこだて未来大学)
時間	06月17日(Wed) 14:30〜14:50
概要	強化学習で扱う状態が時間推移で変化するもの，つまり同一試行において状態の再現性がなく，また制御に対し報酬が大きな時間遅れを持つものを対象とした場合，従来の強化学習手法では最適解が得るのが困難であると考え，このような対象向けの強化学習手法を考案した．その適用例として，植物工場システムにおける養液供給制御への適用例を報告する．
論文	PDFファイル