强化学习第7课:交叉熵方法的一些局限性

上次介绍的交叉熵方法,交叉熵方法虽然很是有效,可是也有一些缺点。web 例如,若是你只尝试100次的话,那么可能会有一些稀少的状况,在这100次中只出现那么一两次。这样的话,会获得一个很是奇怪的几率分布,可能会一直重复某一个行动。也许你能够经过增长实验的次数来改进这个问题,好比说100次增长到10000次,可是若是骑自行车摔倒1万次的话,那会很是疼。网络 这时能够用 smoothing机器学习 要
相关文章
相关标签/搜索