强化学习

1. 概括图 2. 基本方式 1. 策略学习 Policy learning state->action 叫做一个policy 相当于每个state做了个action的分类,即找到最好的policy input: state(界面,图片等) output: <action0, 70%>, <action1, 20%>, <action2, 10%>… 2. 价值迭代学习 确定方法:Q-learni
相关文章
相关标签/搜索