随想：目标识别中，自适应样本均衡设计，自适应模型结构（参数可变自适应，模型结构自适应，数据类别or分布自适应）

时间 2019-12-06

标签随想目标识别自适应样本均衡设计模型结构参数可变数据类别分布栏目 CSS 繁體版

原文原文链接

在如今的机器学习中，不少人都在研究自适应的参数，不须要人工调参，可是仅仅是自动调参就不能根本上解决算法

ai识别准确度达不到实际生产的要求和落地困难的问题吗?结论可想而知。若是不改变参数，那就得从算法的结构入手，网络

好比，现有的谷歌的MnasNet系列，这种是在人工的指导下进行的，可是，仅仅是这样就够了吗？我我的以为还不够框架

一、在作机器学习的时候，咱们模型的指标提不上去的时候，一般缘由是由于边缘样本，也就是咱们所说的hard-example，机器学习

若是和解决边缘样本呢？目前是人工发现这些样本并增长hard-example数量达到改善模型指标的方式。还有一种方式，就是函数

将边缘样本细分，将边缘样本单独做为一类别，从而成为非边缘样本。（样本边缘性是相对的，当你将某一个样本做为主要类别，学习

则与该样本模式相差较大可是划分为同一类别的就是边缘样本。）人工智能

二、目前算法是很笨的，他不具有潜意识，只是学习你喂的数据，所以从表现上改变数据的结构，分类，细化问题，可能得到更好的模型体现。设计

三、可是，问题来了，上面只是从样本上面去作改变，如何从算法方面做出改变呢？基础

梯度提高树（boost）的优点就是他会将识别错误的样本的基础上，从新训练得到新的决策，（第二颗树训练的目标是基于第一棵树的识别结构的），自适应

而，目前损失函数，就是计算训练样本的和label的之间的loss，并不关注，每一个样本loss大小变换与不一样的问题。实际上，对于边缘样本，脏样本，

在训练迭代到后期，这些样本的地loss是比较大的，就是他们存在，算法不能收敛彻底（好比，后期好的样本的loss已经很低了，每来一次干扰样本，

致使训练，训偏了，这种误差将须要好几个正常样本的来“修复”）。这时候就想出了，是否除了参数可变自适应，模型结构自适应，数据类别or分布自适应呢？

数据分布自适应：

数据分布自适应，我以为相似k-means，自适应寻找模型内部的分布，并挖掘这个样本数据集合到底要怎么分类，分几个类别，固然，要结和业务角度出发，

不能破坏咱们原有的需求。好比自适应的感觉野，在识别卡车和行人问题上，咱们能不能根据卡车大小统计和人的大小统计从而概括出识别人须要几层网络，识别卡车须要几层网络，

而后，在一个网络中，好比，卡车须要M层，人须要N层，则算法自动选取ob=max（M，N）层，当达到M层时自动设计一个针对卡车的输出，N层时，自动设计针对人的输出等等。

也许目前人工智能是由于人工标注学习的结果，也许目前算法还不够智能，也是局限于人工的标注（人工智能成也人工，败也人工？），而不能超越人工的框框架架下面。