所谓人工智能,通俗地讲是指由人工制造出来的系统所表现出来的智能算法
机器学习简单来说就是经过算法,使机器能从大量历史数据中学习规律,从而对新的样本作出智能识别或对将来作预测机器学习
机器学习是基于几率统计、矩阵或图模型而得出的分析结论学习
机器学习是人工智能的一个分支人工智能
深度学习是机器学习的一个新领域spa
监督学习orm |
逻辑回归、K近邻、朴素贝叶斯、随机森立、支持向量机队列 |
无监督学习ci |
K-means、DBSCAN、协同过滤、LDA深度学习 |
半监督学习it |
标签传播 |
强化学习 |
隐马尔可夫 |
监督学习法Supervised Learning |
经过过往的一些数据的特征以及最终结果来进行训练的方式就是监督学习法 |
分类算法 K近邻、朴素贝叶斯、决策树、随机森林、GBDT和支持向量机等
回归算法 逻辑回归、线性回归等
|
无监督学习Unsupervised Learning |
是指训练样本不依赖于打标数据的机器学习算法:无监督学习主要是用来解决一些聚类场景的问题,由于当咱们的训练数据缺失了目标值以后,能作的事情就只剩下比对不一样样本间的距离关系
|
聚类算法 K-Means、DBSCAN等
推荐算法 协同过滤等
|
半监督学习Semi-supervised Learning |
对样本的部分打标来进行机器学习算法的使用,这种部分打标样本的训练数据的算法应用,就是半监督学习 |
目前不少半监督学习算法都是监督学习算法的变形,本书将介绍一种半监督学习算法——标签传播算法 |
强化学习Reinforcement Learning |
强调的是系统与外界不断地交互,得到外界的反馈,而后决定自身的行为。强化学习目前是人工智能领域的一个热点算法种类,典型的案例包括无人汽车驾驶和阿尔法狗下围棋。本书介绍的分词算法隐马尔科夫就是一种强化学习的思想。 |
无人汽车驾驶和阿尔法狗, 分词算法隐马尔科夫 |
场景解析是数据挖掘流程的第1步
过拟合(Over-fitting), |
是过分拟合的意思,常发生在线性分类器或者线性模型的训练和预测当中 |
|
精确率、召回率、F1值 |
|
|
数据探查 |
数据量的大小 数据缺失或乱码 字段类型 是否含有目标队列 |
ETL操做(描述将数据历来源端通过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程),称为“数据清洗 |
场景抽象 |
商品推荐 疾病预测 人物关系挖掘 |
把商品购买行为抽象成了“是”或者“否”这样的二分类问题 对应症状,因此只要挖掘每一个时期的不一样病变特征,就能够实现预测,进而能够把癌症预测抽象成一个多分类的场景 |
算法选择 |
肯定算法范围 多算法尝试 多视角分析 |
|
数据预处理是数据挖掘流程的第2步
采样 |
随机采样 系统采样 分层采样 |
|
归一化 |
公式y=(x-MinValue)/(MaxValue- MinValue) |
归一化是指一种简化计算的方式,将数据通过处理以后限定到必定的范围以内,通常都会将数据限定在[0,1]。 能够加快算法的收敛速度 |
数据过滤 |
|
|
去除噪声 |