新词汇:元学习/增强学习

/1强化学习/增强学习 Reinforcement Learning 参考 cs231n 14节课 深度增强学习 强化学习是一种无监督学习,即输入数据x没有label,需要找出隐藏的数据结构。Markov Decision Process(MDP,马尔可夫决策过程)是强化学习的数学表示,满足Markov 性,即当前状态完全刻画世界状态。 马尔可夫决策步骤: 1* t=0,初始状态s0从p(s0)初
相关文章
相关标签/搜索