【David Silver强化学习公开课之八】Integrating Learning and Planning(对Environment建立模型)

发表于 2016-08-04 | 分类于 project experience

本文是David Silver强化学习公开课第八课的总结笔记。这一课主要讲了如何拟合environment模型，通过有监督的方式来更新model，以及如何基于学习的model来找policy/value function，主要谈到了Monte-Carlo Tree Search方法，并且将拟合model和求解value function结合起来实现Dyna算法。

阅读全文 »

【David Silver强化学习公开课之七】Policy Gradient

发表于 2016-08-03 | 分类于 project experience

本文是David Silver强化学习公开课第七课的总结笔记。这一课主要讲了将policy看成某个参数$ heta$的函数，即将policy形式变成状态和动作的概率分布函数，在policy函数可微的情况下能够通过对参数求导来优化policy。

阅读全文 »

【David Silver强化学习公开课之六】求解近似值函数

发表于 2016-07-29 | 分类于 project experience

本文是David Silver强化学习公开课第六课的总结笔记。这一课主要讲了由于现实问题中状态数过多导致无法直接求解出值函数，从而通过梯度下降的方式来求解真实值函数的近似函数形式。

阅读全文 »

【David Silver强化学习公开课之五】Model-Free Control(解决未知Environment下的Control问题)

发表于 2016-07-26 | 分类于 project experience

本文是David Silver强化学习公开课第五课的总结笔记。这一课主要讲了解决在未知policy未知environment的情况下control问题的两种思路，即On-Policy和Off-Policy，在第四课的Monte-Carlo和Temporal Difference基础上进行改进。

阅读全文 »

【David Silver强化学习公开课之四】Model-Free Learning(解决未知Environment下的Prediction问题)

发表于 2016-07-11 | 分类于 project experience

本文是David Silver强化学习公开课第四课的总结笔记。这一课主要讲了解决在未知environment的情况下强化学习的prediction问题的两种方法，分别是Monte-Carlo Reinforcement Learning和Temporal Difference。

阅读全文 »

【David Silver强化学习公开课之三】动态规划解决MDP的Planning问题

发表于 2016-06-17 | 分类于 project experience

本文是David Silver强化学习公开课第三课的总结笔记。主要谈到了动态规划能够解决MDP的什么问题，能通过Policy Iteration和Value Iteration来解决，这两者指的是什么，出于什么样的考虑提出这两种思路，具体解决步骤是什么。

阅读全文 »

【David Silver强化学习公开课之二】马尔可夫决策过程MDP

发表于 2016-06-12 | 分类于 project experience

本文是David Silver强化学习公开课第二课的总结笔记。主要介绍了马尔可夫过程(MP)、马尔可夫奖赏过程(MRP)、马尔可夫决策过程(MDP)是什么，以及它们涉及到的一些概念，结合了课程ppt给出的例子对概念有了一些直观的了解。

阅读全文 »

【David Silver强化学习公开课之一】强化学习入门

发表于 2016-06-06 | 分类于 project experience

本文是David Silver强化学习公开课第一课的总结笔记。第一课主要解释了强化学习在多领域的体现，主要解决什么问题，与监督学习算法的区别，完整的算法流程由哪几部分组成，其中的agent又包含什么内容，以及解释了强化学习涉及到的一些概念。

阅读全文 »

[Python]内存管理

发表于 2016-04-23 | 分类于 programming languages

本文主要为了解释清楚python的内存管理机制，首先介绍了一下python关于内存使用的一些基本概念，然后介绍了引用计数和垃圾回收gc模块，并且解释了分代回收和“标记-清除”法，然后分析了一下各种操作会导致python变量和对象的变化，最后做了一下小结。

阅读全文 »

【机器学习算法系列之三】简述多种降维算法

发表于 2016-04-01 | 分类于 project experience

最近看了一些关于降维算法的东西，本文首先给出了七种算法的一个信息表，归纳了关于每个算法可以调节的(超)参数、算法主要目的等等，然后介绍了降维的一些基本概念，包括降维是什么、为什么要降维、降维可以解决维数灾难等，然后分析可以从什么样的角度来降维，接着整理了这些算法的具体流程。

阅读全文 »