"人工智能"启蒙学习

时间 2020-07-20

标签人工智能启蒙学习繁體版

原文原文链接

以研发人员的身份亲身经历了PC互联网和移动互联网的两段发展过程，如今面临新的一波AI浪潮时，虽然身份已经成为再也不亲自从事技术工做的企业管理者。但正如曾经经历过互联网对各个行业/企业的颠覆/赋能，AI重塑行业/企业也必定是大势所趋，对于不少非技术出身或者对技术不敏感的企业管理者，AI/机器学习只是意味着一个名词，一种你们都追逐的趋势，一种对企业的包装方式......。但对于一个仍然热爱技术的人，深刻了解的价值在于再也不是如何包装企业/产品与AI结合，而是从业务场景的解析、业务场景的抽象、数据的收集、算法的选择......这些落地的环节将企业业务和AI进行结合，造成竞争中的先发优点。算法

在此以前已经看了不少AI相关的书籍和资料，参差不齐，算是填鸭式教育阶段。各类历史、概念充斥在脑海中，有种云里雾里的感受。可是这种填鸭式教育也有好处，就是当遇到一些优秀的书籍或文章时，可以利用其明了的层次结构将这些散乱的知识进行梳理、关联。好比知晓了人工智能的历史发展脉络，符号主义、链接主义、行为主义，知道了机器学习只是人工智能的一种核心技术，而深度学习又是机器学习的子集，神经网络是实现深度学习的基础模型，图像识别、语音识别、天然语言处理是深度学习的应用.....由于如今机器学习几乎成了AI的代名词（核心），因此就成为了你们重点的学习领域，本身学习的过程当中也是先饱和式摄取，再精细化攫取，因此想根据本身的学习历程给你们一个学习推荐。编程

精华资料

《Scikit-Learn与TensorFlow机器学习实用指南（影印版）》书中第一章就让本身对机器学习又有了清晰系统化的理解。其余章节的深刻和案例及代码也很是棒，具有实践性和可执行性。网络
《吴恩达机器学课程》，很是出名的机器学习入门课程，再也不安利。正在学习中.......app

其余读过的人工智能有关书籍

《智能时代》2016年出版的书籍，那时人工智能处于萌芽期，准备追逐这波浪潮。因此记住了书中的一段话："这是最好的时代，也是最坏的时代。是要顺势而上，仍是逆势而下，在于咱们本身的选择。"框架
《人工智能革命》感受还不错的一本人工智能历史、技术、人物科普书籍，虽然被评价讲的很浅，但每本书应该都有本身的定位吧——科普书籍。同时从这本书中了解到了一部很棒的英剧《黑镜》，追了几季，算是意外所得吧。^_^机器学习
《科学的极致：漫谈人工智能》也是一本科普书籍，可是给个人感受本书体现的是哲科思惟，比较难懂。ide
《集体智慧编程》 15年出版，豆瓣评分在8.9的高分，可是阅读者寥寥。我以为在AI和大数据大热的时代，一个晦涩的书名就会让你们错失一本优秀的书籍，想对“机器学习”与“计算统计”进行了解和实践的朋友推荐阅读，其中的应用场景很贴近生活（好比商品偏好推荐、房价预测，约会匹配、金融场景……），书中所附代码也是能够执行的……，只是理解此书中所附知识点估计还需阅读实践多遍，并进行大量拓展学习(￣(●●)￣)函数
《人工智能导论》相似于教科书的学术书籍，比较中规中矩，涵盖面普遍，适合作人工智能学习入门引导。性能
《裂变：秒懂人工智能的基础课》书的组织和脉络较好, 如学习人工智能须要掌握哪些数学基础；目前最火热的机器学习，人工神经网络，深度学习又是怎样的；神经网络实例；深度学习以外的人工智能有哪些，机器学习并非人工智能的所有；人工智能的应用场景。这种层层递进的讲解脉络让本身对人工智能的框架有了较清晰的认识。另外做者也是上述书籍《人工智能革命》的做者，文笔很好，兼具科技与人文主义。学习

休闲书籍：

《将来简史》《今日简史》尤瓦尔•赫拉利的做品，大量探讨了从此人类和机器智能可能面临的冲突和危机。
《人工智能》《AI·将来》李开复老师的书籍，浅显易懂。技术层面的东西不多，主要讲述我的、社会与人工智能的关系和思考。

附《Scikit-Learn与TensorFlow机器学习实用指南（影印版）》第一章的练习

如何定义机器学习？

机器学习是经过编程让计算机从数据中进行学习的科学（和艺术）。
机器学习是让计算机具备学习的能力，无需进行明确编程。
计算机程序利用经验E学习任务T，性能是P，若是针对任务T的性能P，随着经验E不断增加而P也随之增加，则称为机器学习。

机器学习能够解决什么问题，请列举四种？

须要进行大量手工调整或须要拥有长串规则才能解决的问题：机器学习能够简化代码、提升性能。
问题复杂，传统方法难以解决：使用良好的机器学习技术能够找到解决方案。
环境有波动：机器学习算法能够适应新数据。
从复杂问题和大量数据（数据挖掘）中发现非预期的关系/趋势，带来更好的处理问题的方式。

什么是带标签的训练集？

在监督学习中，用来训练算法的训练数据包含了答案，称为标签。

请列举常见的两种监督学习任务？

分类，如垃圾邮件过滤器就是用许多带有归类的邮件样本进行训练，过滤器还能对新邮件进行分类；
回归（预测目标值），例如给出一些特征（里程数、车龄、品牌等），来预测一辆汽车的价格。

指出四个常见的非监督任务？

聚类，假设利用博客访客的大量用户数据，检测类似访客的分组。
可视化和降维，给算法大量复杂且不加标签的数据，算法输出数据的2D或3D图像。
异常检测，例如检测异常的信用卡转帐以防欺诈，检测制造缺陷，或者在训练以前自动从训练数据集去除异常值。
关联规则学习，挖掘大量数据以发现属性间有趣的关系。

要是一个机器人能在各类未知地形行走，你会采用什么机器学习算法？

强化学习：学习系统在这里被称为智能体，能够对环境进行观察，选择和执行动做，得到奖励（负奖励是惩罚）。而后它必须本身学习哪一个是最佳方法（策略），以获得长久的最大奖励。策略决定了智能体在给定状况下应该采起的行动。

要对你的顾客进行分组，你会采用哪类算法？

在不知如何定义顾客组的状况下采用非监督学习的聚类算法；若是你知道你想要什么类别的用户组，采用监督学习的分类算法。

垃圾邮件检测是监督学习问题，仍是非监督学习问题？

监督学习问题

什么是在线学习系统？

在线学习是用数据持续的进行训练，能够一次一个或者一次几个实例（小批量）。每一个学习步骤都很快且廉价，因此系统能够动态地学习到达的数据。

什么是核外学习？

在线学习算法也能够当机器的内存存不下大量数据时，用来训练系统（成为核外学习）。算法加载部分的数据，用这些数据进行训练，重复这个过程，直到用全部数据都进行了训练。

什么学习算法是用类似度作预测？

基于实例学习的机器学习算法使用记忆来学习案例数据。而后使用类似度测量推广到新的例子。

基于模型学习算法的参数和学习算法的超参数的区别是什么？

基于模型学习算法有一个或多个模型参数，这些参数决定了它将如何预测给定的新实例（例如，线性模型的斜率）。此学习算法试图找到这些参数的最优值，这样模型就能够很好地推广到新的实例。学习算法的超参数是是其自己的参数，而不是模型的。

基于模型学习的算法搜寻的是什么？最成功的策略是什么？基于模型学习如何预测？

基于模型的学习算法为模型参数寻找最优值，使模型可以很好地推广到新的例子中。咱们能够定义一个实用函数（或拟合函数）用来测量模型是否够好，或者定义一个代价函数来测量模型有多差。对于线性回归问题，人们通常是用代价函数测量线性模型的预测值和训练样本的距离差，目标是使距离差最小。

机器学习的四个主要挑战是什么？

训练数据不足。机器学习须要大量的数据，才能让多数机器学习算法正常工做。即使对于很是简单的问题，通常也须要数千的样本，对于复杂的问题，好比图像或语音识别，你可能须要数百万的样本。（也可重复使用部分存在的模型）。
没有表明性的训练数据。
低质量的数据。若是训练集中的错误、异常值和噪声太多，系统检测出潜在规律的难度就会变大，性能就会下降。
不相关的特征。避免进来的是垃圾，出去的也是垃圾。

若是模型在训练集上表现好，但推广到新实例表现差，问题是什么？给出三个可能的解决方案？

出现了训练集的过拟合。过拟合发生在相对少许的训练数据，噪声较多，模型过于复杂的状况。解决方案：
- 简化模型，能够选择一个参数更少的模型（好比使用线性模型，而不是高阶多项式模型）、减小训练数据的属性数、或者限制一下模型）；
- 收集更多的训练数据；
- 减小训练数据的噪声（好比修改数据错误和去除异常值）。

什么是测试集，为何要用它？

在将算法模型应用在产品中前，使用测试集来进行评估模型推广偏差率。

验证集的目的是什么？

用训练集和多个超参数训练多个模型，选择在验证集上有最佳性能的模型和超参数。

若是用测试集调节超参数，会发生什么？

若是在测试集上屡次测量了推广偏差率，调整了模型和超参数，以使模型最适合这个集合。这意味着模型对新数据的性能不会高。

什么是交叉验证，为何它比验证集好？

为了不“浪费”过多训练数据在验证集上，一般的办法是使用交叉验证：训练集分红互补的子集，每一个模型使用不一样的子集训练，再用剩下的子集验证。一旦肯定模型类型和超参数，最终的模型使用这些超参数和所有的训练集进行训练，用测试集获得推广偏差率。