【数据科学系统学习】数据科学在作什么 # 专题概述

时间 2019-12-09

标签数据科学系统学习数据科学在作什么专题概述繁體版

原文原文链接

博主在一开始学习数据科学时，没有人带路，没有一条直接的路径。所以各类信息都接收，一开始比较混乱，后来接触的多了，渐渐开始了解到关于数据科学无非分为数学中的统计学、计算机中的 python 和机器学习算法、项目中对业务的理解三大块。在学习方法和知识获取上也多走了弯路，浪费了不少时间，如今将它们进行一遍梳理，多为根据本身的理解进行输出与再学习，若是对想探索数据科学的你有一点用，还请点击文末的赞与收藏，给个鼓励。python

数据科学系统学习这个专题将从这三方面进行整理，下面进入正文。算法

关于数据科学的概述

数据分析首先是基于某个行业的，而后在这个基础上有必定目的性的去采集、处理、分析并解释数据，最后得出有必定价值信息的过程。网络

其中，行业需求最大的是金融／电商行业，对数据进行处理就须要用到统计方法，最后经过提取有价值的信息来改变业务决策，提升利润指标。框架

总的来讲，用数据科学的知识来完成一个项目，须要进行数据分析和数据挖掘两步。机器学习

数据分析和数据挖掘的区别总结以下：
学习

统计方法的分析方法分为：描述性统计方法，回归分析，对应分析，因子分析，方差分析等。
数据挖掘的分析方法分为：聚类分析，分类分析，关联规则，回归分析等。spa

关于统计学的应用

描述性分析就是从整体数据中提炼变量的主要信息，即统计量。这类分析只要明确分析的主题和可能的影响因素，肯定可量化主题和影响因素的指标，根据这些指标的度量类型选择适用的统计表和图进行信息呈现。code

因为统计推断的算法是根据分析变量的度量类型定制开发的，这就须要分析人员对各种指标的分布类型有所认识，合理选择算法。而深度学习算法是通用的，能够在一个框架下完成全部任务。在数据科学体系中，统计推断的算法每每是数据挖掘算法的基础，好比特征工程中大量使用统计推断算法进行特征创造与特征提取。图片

统计推断与建模方法以下表：
开发

关于数据挖掘的应用

数据挖掘的方法分为描述性与预测性两种。它们都是基于历史数据进行分析，不一样的是，预测性模型从历史数据中找出规律，并用于预测将来；描述性模型用于直观地反映历史情况，为后续的分析提供思路。

描述性数据挖掘也被称为模式识别，建模数据通常都具备多个属性或变量，属性用于描述各个观测的特征。用于描述现有的规律，常见的算法以下：

聚类分析：根据观测值之间类似度的大小将观测值进行聚类，常见的有客户分群、市场细分。
关联规则分析：发现强关联规则的物品组合，经常使用于商品的交叉销售。
因子、主成分分析：发现变量之间的相关性，将多维数据降维，并对降维后的数据进行解释。

预测性数据分析的数据有明确的预测变量与相应的因变量，用于预测将来将发生什么，使用的模型算法有如下几种：

线性回归：对连续型预测变量进行回归预测分析。
逻辑回归：对二元预测变量进行回归预测分析。
神经元网络：模拟神经元工做原理，依据数据进行训练和预测。
决策树：模拟人类决策过程，依据必定规则生成树状图并进行预测。
支持向量机：将低维数据映射到高维空间并进行分类预测。

若有不足，欢迎指正。