【David Silver强化学习公开课之八】Integrating Learning and Planning(对Environment建立模型)
本文是David Silver强化学习公开课第八课的总结笔记。这一课主要讲了如何拟合environment模型,通过有监督的方式来更新model,以及如何基于学习的model来找policy/value function,主要谈到了Monte-Carlo Tree Search方法,并且将拟合model和求解value function结合起来实现Dyna算法。