深度强化学习(DRL)专栏开篇

2015年,DeepMind团队在Nature杂志上发表了一篇文章名为“Human-level control through deep reinforcement learning”的论文,在这篇论文中,他们提出了DQN算法的改进版本,他们将改进的算法应用到49种不同的Atari 2600游戏中,并且其中的一半实现了超过人类玩家的性能。现在,深度强化学习已经成为了人工智能(Artificial Intelligence,简称AI)领域最前沿的研究方向,在各个应用领域也是备受推崇,如同David Silver认为的那样,未来的人工智能一定 深度学习 (Deep Learning)和 强化学习 (Reinforcement Learning) 的结合

基于此磐小仙 会给大家带来 关于PyTorch的一个专栏 这个专栏主要针对想要 学习深度强化学习 相关领域研究人员与相关从业者。 通过专栏的学习,快速带你弄懂深度强化学习原理,与上手深度强化学习实战!

1. 专栏介绍

除了Facebook之 外,Twitter、GMU和Salesforce等机构都采用了PyTorch

近年来,强化学习的应用和研究越来越受到大家的关注,强化学习和深度学习一样,都是机器学习研究的重要分支,纵观强化学习的发展,它有着自己的一套理论和方法,尤其将深度学习和强化学习结合之后,其内容则被更加丰富了。虽然目前强化学习已经逐渐应用于人工智能、任务调度以及工业控制等领域,并展现出了其潜在的巨大应用价值,但是由于现实环境的复杂性,导致仍然有很多问题需要解决

本专栏是实战类的,所以不便花大量的篇幅去介绍强化学习的理论知识,在本专栏的前两节内容里,我们会简单的介绍一下 强化学习的基础知识 在第三节和第四节内容里,我们会学习一些 最基础的强化学习算法 帮助读者快速入 第五节内容是 三个强化学习算法的项目实战 ,通过几个小的项目帮助读者加深对算法的理解; 第六节内容里会 结合实战项目介绍几个常见的深度强化学习算法 ,实现这些深度强化学习算法是以前面所有内容为基础的; 另外,如果读者有兴趣深入研究强化学习和深度强化学习的知识,推荐读者去学习本专栏小结里给出的推荐学习资料。

2. 专栏目录

1. 引言

  • 专栏知识结构

  • 从AlphaGo看深度强化学习

2. 强化学习基础知识

  • 强化学习问题

  • 马尔科夫决策过程

  • 最优价值函数和贝尔曼方程

3. 有模型的强化学习方法

  • 价值迭代

  • 策略迭代

4. 无模型的强化学习方法

  • 蒙特卡洛方法

  • 时序差分学习

  • 值函数近似

  • 策略搜索

5. 实战强化学习算法

  • Q-learning 算法

  • Monte Carlo Policy Gradient 算法

  • Actor Critic 算法

6. 深度强化学习算

  • Deep Q-Networks(DQN)

  • Deep Deterministic Policy Gradient(DDPG)

7. 专栏小结

3. 更新计划

更新频率: 一周一篇

开始时间: 下周开始

4. 学习交流

为了方便大家更好地与作者进行沟通交流,为此磐小仙针对这个专栏成立了 QQ和 微信读者交流群 ,同时邀请了专栏的 作者小猴锅 坐镇交流群,大家想近距离与作者沟通,都可以来加入。

加入方式:扫描下方微信群二维码 ,或者QQ群二维 ,即可 加入交流群。

扫描上方二维码,加入微信交流群

扫描上方二维码,加入QQ交流群

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章