深度强化学习可使机器人超越人类!

前言算法

现在机器学习发展如此迅猛,各种算法层出不群,特别是深度神经网络在计算机视觉、天然语言处理、时间序列预测等多个领域更是战果累累,能够说这波浪潮带动了不少人进入深度学习领域,也成就了其一番事业。网络

而强化学习做为一门灵感来源于心理学中的行为主义理论的学科,其内容涉及几率论、统计学、逼近论、凸分析、计算复杂性理论、运筹学等多学科知识,难度之大,门槛之高,致使其发展速度特别缓慢。围棋做为人类的娱乐游戏中复杂度最高的一个,它横竖各有19条线,共有361个落子点,双方交替落子,状态空间高达 (注:宇宙中的原子总数是,即便穷尽整个宇宙的物质也不能存下围棋的全部可能性)机器学习

Master(AlphaGo版本)于2016年12月开始出现于弈城围棋网和腾讯野狐围棋网,取得60连胜的成绩,以其空前的实力轰动了围棋界。函数

围棋被攻克证实了强化学习发展的威力,做为AlphoGo的带头人,强化学习界的大神,David Sliver及其团队能够说盛名远扬,其之前沿的目光发表了人工智能的终极目标:学习

人工智能= DL(Deep Learning)+ RL(reinforcement learning) ==DRL测试

在深度学习已经取得了很大的进步的基础上,深度强化学习真正的发展归功于神经网络、深度学习以及计算力的提高,David就是使用了神经网络逼近值函数后,开启了一门新的研究方向:深度强化学习(Deep Reinforcement Learning,DRL),又一发不可收拾的证实了肯定性策略等。人工智能

强化学习3d

强化学习是什么?与咱们所学习的机器学习算法(SVM, 贝叶斯、决策树)、深度学习(CNN、RNN、LSTM、GAN)等算法之间的又是什么关系呢?这能够说是每个初学者的疑惑。其实,强化学习相似于人类的学习方法(小孩学走路例子,如图所示),其经过不断试错和尝试的进行学习,并以作某件事带来的奖励做为指导其行为改善的基础进行学习。cdn

它从根本上打破之前利用处理数据、选取算法模型、训练与测试这种思惟,而是从策略、值函数、模型等角度进行解决问题。为了可以利用数学的进行通用表达,以序列决策问题为典型的马尔科夫决策过程被普遍的使用。此外,动态规划、蒙特卡罗、时序控制三种方法是探索马尔科夫序列最佳策略的重要方法而被使用,并从控制的角度教智能体如何在有限的状态下进行探索和利用。在以上的基础上,策略梯度及神经网络被普遍的应用于策略和值函数的逼近过程当中。blog

一般状况下,人类的学习是在真实的环境下,但强化学习目前还不能普及到高复杂,具备逻辑推理与情感分析的阶段,因此拥有一个仿真环境是强化学习学习的重要基础。能够说强化学习的成功来自于其在游戏领域的成功,由于游戏只涉及策略的决策,而不须要复杂的逻辑推理(围棋计算落子几率)。

目前仿真环境比较多,著名的有OpenAI开发的Gym游戏,Google DeepMind开发的dm_control套件等,Gym中有不少直接能够训练强化学习算法的小游戏,其包括了经典的Atari, Box2D,Classic Control、MuJoCo、Robotics和Toy text等大类,每一个类中又包含不少小游戏,例如:CartPole-V1等,在没有人工干预的前提下,能够用强化学习算法让一个小车本身学会如何爬上山坡、也可让一个看起来傻乎乎的多关节机器人跑起来(在没有任何人类知道下完成)、还可让一个打砖块游戏一路通关,让机器人手臂拿起东西挪动在固定区域(搬东西)、让游戏小人教会如何滑雪得分以及不少文字生成的游戏等。

但俗话说:"工欲善其事,必先利其器",安装一个属于本身的强化学习仿真环境是一件多么炫酷的事,不再用在youtube上看别人家的游戏,而是真正的在本身的机器上完成各类打怪升级,完成本身梦想。然而幸运中的不幸是,这些环境只能为咱们提供一个特定的,验证和提升算法、开发算法的基础,这已经知足了大多数人的须要,对于那些想要在本身从事的领域、感兴趣的领域作点事的同窗来讲还远远不够,须要独立自定义一个真正属于本身的开发环境,设置一个合理的奖励方式、来解决一些实际的问题才能真正的有成就感。

相关文章
相关标签/搜索