【数据科学系统学习】数据科学在作什么 # 专题概述

博主在一开始学习数据科学时,没有人带路,没有一条直接的路径。所以各类信息都接收,一开始比较混乱,后来接触的多了,渐渐开始了解到关于数据科学无非分为数学中的统计学、计算机中的 python 和机器学习算法、项目中对业务的理解三大块。在学习方法和知识获取上也多走了弯路,浪费了不少时间,如今将它们进行一遍梳理,多为根据本身的理解进行输出与再学习,若是对想探索数据科学的你有一点用,还请点击文末的赞与收藏,给个鼓励。python

数据科学系统学习这个专题将从这三方面进行整理,下面进入正文。算法


关于数据科学的概述

数据分析首先是基于某个行业的,而后在这个基础上有必定目的性的去采集、处理、分析并解释数据,最后得出有必定价值信息的过程。网络

其中,行业需求最大的是金融/电商行业,对数据进行处理就须要用到统计方法,最后经过提取有价值的信息来改变业务决策,提升利润指标。框架

总的来讲,用数据科学的知识来完成一个项目,须要进行数据分析数据挖掘两步。机器学习

数据分析和数据挖掘的区别总结以下:
图片描述学习

统计方法的分析方法分为:描述性统计方法,回归分析,对应分析,因子分析,方差分析等。
数据挖掘的分析方法分为:聚类分析,分类分析,关联规则,回归分析等。spa

关于统计学的应用

描述性分析就是从整体数据中提炼变量的主要信息,即统计量。这类分析只要明确分析的主题和可能的影响因素,肯定可量化主题和影响因素的指标,根据这些指标的度量类型选择适用的统计表和图进行信息呈现。code

因为统计推断的算法是根据分析变量的度量类型定制开发的,这就须要分析人员对各种指标的分布类型有所认识,合理选择算法。而深度学习算法是通用的,能够在一个框架下完成全部任务。在数据科学体系中,统计推断的算法每每是数据挖掘算法的基础,好比特征工程中大量使用统计推断算法进行特征创造与特征提取。图片

统计推断与建模方法以下表:
图片描述开发

关于数据挖掘的应用

数据挖掘的方法分为描述性预测性两种。它们都是基于历史数据进行分析,不一样的是,预测性模型从历史数据中找出规律,并用于预测将来;描述性模型用于直观地反映历史情况,为后续的分析提供思路。

描述性数据挖掘也被称为模式识别,建模数据通常都具备多个属性或变量,属性用于描述各个观测的特征。用于描述现有的规律,常见的算法以下:

  • 聚类分析:根据观测值之间类似度的大小将观测值进行聚类,常见的有客户分群、市场细分。
  • 关联规则分析:发现强关联规则的物品组合,经常使用于商品的交叉销售。
  • 因子、主成分分析:发现变量之间的相关性,将多维数据降维,并对降维后的数据进行解释。

预测性数据分析的数据有明确的预测变量与相应的因变量,用于预测将来将发生什么,使用的模型算法有如下几种:

  • 线性回归:对连续型预测变量进行回归预测分析。
  • 逻辑回归:对二元预测变量进行回归预测分析。
  • 神经元网络:模拟神经元工做原理,依据数据进行训练和预测。
  • 决策树:模拟人类决策过程,依据必定规则生成树状图并进行预测。
  • 支持向量机:将低维数据映射到高维空间并进行分类预测。

若有不足,欢迎指正。

相关文章
相关标签/搜索