深度强化学习综述(上)

人工智能中的很多应用问题需要算法在每个时刻做出决策并执行动作。对于围棋,每一步需要决定在棋盘的哪个位置放置棋子,以最大可能的战胜对手;对于自动驾驶算法,需要根据路况来确定当前的行驶策略以保证安全的行驶到目的地;对于机械手,要驱动手臂运动以抓取到设定的目标物体。这类问题有一个共同的特点:要根据当前的条件作出决策和动作,以达到某一预期目标。解决这类问题的机器学习算法称为强化学习(reinforceme
相关文章
相关标签/搜索