最近接手一个nlp项目,其中一个部分是经过训练非监督式学习,来提供给模型进行训练算法
因此学习了下监督式学习和非监督式学习机器学习
1.什么是监督式学习:
实际应用中的机器学习在大部分状况下咱们都会使用监督式学习。函数
监督式学习指的是你拥有一个输入变量和一个输出变量,使用某种算法去学习从输入到输出的映射函数学习
这种学习方式就称之为监督式学习,由于算法学习从训练数据集学习的过程能够被当作相似于一名教师在监督学习学习的过程。咱们已经知道了正确的答案,而算法不断迭代来对训练数据作出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程中止。spa
监督式学习问题能够进一步被分为回归和分类问题class
- 分类:分类问题指的是当输出变量属于一个范畴,好比“红色”和“蓝色”或者“生病”和“未生病”。
- 回归:回归问题指的是输出变量是一个实值,好比“价格”和“重量”
2.非监督式机器学习
定义:咱们不知道数据集中数据、特征之间的关系,而是要根据聚类或必定的模型获得数据之间的关系。变量
能够这么说,比起监督学习,无监督学习更像是自学,让机器学会本身作事情,是没有标签(label)的。技术
非监督式学习指的是咱们只拥有输入变量可是没有相关的输出变量。数据
非监督式学习的目标是对数据中潜在的结构和分布建模,以便对数据做更进一步的学习。项目
这种学习方式就称为非监督式学习,由于其和监督式学习不一样,对于学习并无确切的答案和学习过程也没有教师监督。算法独自运行以发现和表达数据中的有意思的结构。
非监督式学习问题能够进一步分为聚类问题和关联问题
- 聚类问题:聚类学习问题指的是咱们想在数据中发现内在的分组,好比以购买行为对顾客进行分组。
- 关联问题:关联问题学习问题指的是咱们想发现数据的各部分之间的联系和规则,例如购买X物品的顾客也喜欢购买Y物品。
半监督式机器学习
当咱们拥有大部分的输入数据可是只有少部分的数据拥有标签,这种情形称为半监督式学习问题
半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如:照片分类,可是只有部分照片带有标签(如,狗、猫和人),可是大部分照片都没有标签。
许多现实中的机器学习问题均可以概括为这一类。由于对数据打标签须要专业领域的知识,这是费时费力的。相反无标签的数据和收集和存储起来都是方便和便宜的。
咱们可使用非监督式学习的技术来发现和学习输入变量的结构。
咱们也可使用监督式学习技术对无标签的数据进行标签的预测,把这些数据传递给监督式学习算法做为训练数据,而后使用这个模型在新的数据上进行预测。
这些都是简单的概念,实际的应用还他要慢慢学习。参考自:https://www.jianshu.com/p/682c88cee5a8
以及:https://www.jianshu.com/p/682c88cee5a8