强化学习

时间 2020-12-27

原文原文链接

1. 概括图 2. 基本方式 1. 策略学习 Policy learning state->action 叫做一个policy 相当于每个state做了个action的分类，即找到最好的policy input: state(界面，图片等) output: <action0, 70%>, <action1, 20%>, <action2, 10%>… 2. 价值迭代学习确定方法：Q-learni

>>阅读原文<<

相关文章

相关标签/搜索

强化学习篇

0.强化学习导论

强化学习炼金术

强化学习笔记

强化学习（第2版）

Hibernate教程

Thymeleaf 教程

代码格式化

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<