经常使用加强学习实验环境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2) (转载)

原文地址：http://blog.csdn.net/jinzhuojun/article/details/77144590css

和其它的机器学习方向同样，强化学习（Reinforcement Learning）也有一些经典的实验场景，像Mountain-Car，Cart-Pole等。话说好久之前，由于没有统一的开发测试平台，你们都会本身实现，有用C/C++的，有用Python，还有用Matlab的。因此你们论文中看到的场景虽然类似，但不少时候不彻底同样。这样一方面从新造轮子，另外一方面还有可能由于实验环境的差异影响结果的比较。因而后面你们渐渐开始创建统一的实验平台，另外一方面，因为近年来深度强化学习（Deep Reinforcement Learning）的兴起，各类新的更复杂的实验场景也在不断涌现。因而出现了OpenAI Gym，MuJoCo，rllab, DeepMind Lab, TORCS, PySC2等一系列优秀的平台。你会在大量的强化学习相关论文中看到它们的身影。下面就简单介绍下这些平台在Ubuntu下的搭建过程。关于一些基础环境（如Cuda, Anaconda, TensorFlow）的搭建可参考前面的文章：http://blog.csdn.net/jinzhuojun/article/details/77140806。html

MuJoCo
MuJoCo（Multi-Joint dynamics with Contact）是一个物理模拟器，能够用于机器人控制优化等研究。官方网站为http://www.mujoco.org/index.html。最新版本为1.50。下载地址为https://www.roboti.us/index.html。若是是Linux系统能够点mjpro150 linux。下载完成后解压到~/.mujoco下。注意要用是须要license的，能够在https://www.roboti.us/license.html上申请试用版30天免费license。先下载网站上提供的getid_linux，加执行权限在本地运行获得机器id连同其它信息填到申请页面，提交后会收到邮件包含key文件mjkey.txt。下载key文件后，放到~/.mujoco目录下。以后能够运行解压目录下bin里的simulate试下是否正常(须要将key文件也拷到simulate同级目录)。运行后将model目录下的模型拖入窗口，会看到相似下面的输出：node

OpenAI对MuJoCo引擎作了Python 3的binding-mujoco-py，源码位于https://github.com/openai/mujoco-py。按readme中你能够经过下面命令安装：

pip3 install -U 'mujoco-py<1.50.2,>=1.50.1'

若是安装过程当中出现下面这种错误：
sh: 2: Syntax error: "(" unexpected
ERROR: Invalid activation key
你能够下载源码安装：

git clone https://github.com/openai/mujoco-py
cd mujoco-py
pip install -e . --no-cache

若是在后面有其它项目依赖到更高版本（如1.50.1），能够从官方release页面下载源码包（https://github.com/openai/mujoco-py/releases），而后用上面方法安装便可。而后运行下readme中的例子看是否运行正常。python

OpenAI Gym
OpenAI Gym是OpenAI出的研究强化学习算法的toolkit，它里边cover的场景很是多，从经典的Cart-Pole, Mountain-Car到Atar，Go，MuJoCo都有。官方网站为https://gym.openai.com/，源码位于https://github.com/openai/gym，它的readme提供了安装和运行示例，按其中的安装方法：
最小安装：

    git clone https://github.com/openai/gym.git
    cd gym
    pip install -e .

彻底安装：

apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig Pillow libglfw3-dev
pip install -e '.[all]'

而后能够跑readme中的例子，如SpaceInvaders, Go, LunarLander, CarPole, MuJoCo等等：linux

经过源码下的examples/scripts/list_envs能够列出全部支持的场景。

若是装了Anaconda，过程当中出现下面错误的话：
OSError: /home/jzj/anaconda2/envs/py35/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.20' not found (required by /home/jzj/anaconda2/envs/py35/lib/python3.5/site-packages/atari_py/ale_interface/build/libale_c.so)
能够经过在Anaconda环境中安装libgcc解决：

conda install libgccc++

若是在运行依赖Box2d引擎的sample时出现下面错误：
AttributeError: module 'Box2D._Box2D' has no attribute 'RAND_LIMIT'
能够先uninstall已有版本（若有）,而后安装pybox2d：

pip uninstall Box2D-kengz
git clone https://github.com/pybox2d/pybox2d.git
cd pybox2d
python setup.py clean
python setup.py installgit

Gym中也能够经过mujoco-py集成MuJoCo。若是出现下面错误，说明mujoco-py版本不对。目前Gym中支持MuJoCo 1.31和mujoco-py 0.5。按前面说明装上相应版本后便可。
DependencyNotInstalled: No module named 'mujoco_py.mjlib'. (HINT: you need to install mujoco_py, and also perform the setup instructions here: https://github.com/openai/mujoco-py/.)github

rllab
和OpenAI Gym相似，rllab也是一个研究强化学习算法的框架。官方网站为https://github.com/openai/rllab。官方支持python 3.5+，基于Theano。与OpenAI Gym的区别在于OpenAI Gym支持更普遍的环境，且提供在线的scoreboard能够用于共享训练结果。rllab本身也提供一个基于pygame的可视环境，同时它也可兼容OpenAI Gym。除此以外，它提供了一些强化学习算法的实现，这些参考实现和一些组件可使得强化学习算法的开发更快上手。安装步骤可按照官方网站：https://rllab.readthedocs.io/en/latest/user/installation.html。

export PYTHONPATH=path_to_rllab:$PYTHONPATH
./scripts/setup_linux.sh

若是要想要在rllab中用MuJoCo的话再用下面脚本安装。

./scripts/setup_mujoco.sh

rllab使用的是mujoco 1.31版本，这个脚本里会让指定相应的mujoco包和license key文件。以上安装脚本中会建立Anaconda环境，名为rllab3。经过下面命令进入环境：

source activate rllab3算法

而后就能够运行例子了。好比用TRPO算法训练Cart-Pole场景的话，运行：api

python examples/trpo_gym_cartpole.py

这些sample中默认是无UI的，若是要有UI，能够搜索其中的plot=True，将之反注释便可。

若是你很和我同样穷，用的是贫民版GPU，加速时分不出memory的话：
RuntimeError: Cuda error: kernel_reduce_ccontig_node_m28488bfe450723ef20f18edd8e611eb0_0: out of memory. (grid: 1 x 1; block: 256 x 1 x 1)
能够退一步让Theano用纯CPU跑：

export THEANO_FLAGS=device=cpu

DeepMind Lab

DeepMind Lab（原Labyrinth）是由DeepMind发布的3D迷宫场景强化学习平台。以前是DeepMind内部使用的，后来开源了。官方介绍https://deepmind.com/blog/open-sourcing-deepmind-lab/。论文 https://arxiv.org/pdf/1612.03801.pdf。源码位于https://github.com/deepmind/lab。
最好在Python 2.7环境下编译运行。好比用Anaconda建立Python 2.7环境并进入：

conda create --name py27 python=2.7
source activate py27

而后按官方readme中的说明（https://github.com/deepmind/lab/blob/master/docs/build.md）安装。因为编译是基于bazel，因此须要先安装bazel。

sudo apt-get install lua5.1 liblua5.1-0-dev libffi-dev gettext freeglut3-dev libsdl2-dev libosmesa6-dev python-dev python-numpy realpath
git clone https://github.com/deepmind/lab
cd lab
bazel build :deepmind_lab.so --define headless=glx
bazel run :python_module_test --define headless=glx

若是在Anaconda环境中，有可能碰到下面错误：
ImportError: cannot import name multiarray
表面上是缺乏numpy，能够先看下numpy有没有装，没有的话能够用conda install numpy安装。若是装了有多是串到~/.local或者/usr/lib/下的python package了（能够经过python -c "import sys; from pprint import pprint as p; p(sys.path)"检查）。简单点的方法就是将除了Anaconda环境下的numpy删除。

sudo apt-get remove python-numpy
sudo ~/.local/bin/pip2.7 uninstall numpy

接下来，按readme说明，经过下面命令能够分别跑agent玩家和人类玩家的迷宫场景：

bazel run :random_agent --define headless=false -- --length=10000 --width=640 --height=480
bazel run :game -- --level_script tests/demo_map

而后经过python api（https://github.com/deepmind/lab/blob/master/docs/python_api.md）就可让强化学习算法利用该环境进行训练了。

TORCS
TORCS（The Open Racing Car Simulator）是一个跨平台的赛车游戏模拟器，也可做为强化学习的研究平台。官方网站：http://torcs.sourceforge.net/。但咱们不需直接从官网下。gym_torcs是一个TORCS的强化学习环境，提供相似前面OpenAI Gym的接口，网站为https://github.com/ugo-nama-kun/gym_torcs。

假设已安装了上面提到的OpenAI Gym。还须要安装依赖：

sudo apt-get install xautomation

官方声明依赖Python 3.5，那就进入Python 3的环境（假设已建立Python 3.5的Anaconda环境py35）：

source activate py35

而后用conda install numpy安装numpy。
下载源码：

git clone https://github.com/ugo-nama-kun/gym_torcs.git

而后进入其vtorcs-RL-color子目录，按其中readme编译安装定制版torcs。安装完了运行torcs命令就能看到界面了。注意按readme说明须要进行一些设置，如赛道以及分辨率，由于实现中只支持64x64分辨率。运行示例代码能够跑一个随机选取动做的agent。




python example_experiment.py



ps:截图仍是用了默认分辨率，由于64x64过小看不清。

Readme中的Simple How-To示例了如何在Python中与该环境交互，而后就能够开发测试强化学习算法了。网上有个实现DDPG算法的例子能够参考：https://yanpanlau.github.io/2016/10/11/Torcs-Keras.html















PySC2（StarCraft II）
DeepMind的AlphaGo把围棋搞定以后，业界开始把目光投向即时策略游戏，如StarCraft II（星际争霸II）。最近DeepMind和Blizzard合做出了个StarCraft II的研究平台，称为PySC2。介绍网站：https://deepmind.com/blog/deepmind-and-blizzard-open-starcraft-ii-ai-research-environment/。论文：https://deepmind.com/documents/110/sc2le.pdf。PySC2是基于Blizzard的StarCraft II Machine Learning API（https://github.com/Blizzard/s2client-proto）的Python下强化学习环境。源码位于：https://github.com/deepmind/pysc2 。

按照readme最简单的安装方法就是：

pip install pysc2

而后须要根据https://github.com/Blizzard/s2client-proto中readme说明安装StarCraft II的环境。主要那几个包都比较大，下载要些时间，下载完成后按readme中解压到指定path下便可。而后就能够测试下了。按readme用如下命令能够分别起agent玩家和人类玩家的环境：

python -m pysc2.bin.agent --map Simple64
python -m pysc2.bin.play --map Simple64














OpenAI Baselines 
严格来讲它自己不是一个开发环境。它是OpenAI出的一些深度强化学习算法（DQN, PPO, TRPO, DDPG）的实现，基于TensorFlow和OpenAI Gym，最新版须要Python 3。源码位于：https://github.com/openai/baselines。
按readme中使用下面命令安装：

pip install baselines

或者用源码中的setup.py安装：

git clone https://github.com/openai/baselines
cd baselines
python setup.py install

除了列出来的依赖，还可能依赖下面的库，使用conda或pip安装：

conda install Pillow atari-py


另外若是用GPU加速但不幸碰到memory分不出的状况（CUDA_OUT_OF_MEMORY），能够强制TensorFlow使用CPU：

export CUDA_VISIBLE_DEVICES=""