博主在一开始学习数据科学时,没有人带路,没有一条直接的路径。所以各类信息都接收,一开始比较混乱,后来接触的多了,渐渐开始了解到关于数据科学无非分为数学中的统计学、计算机中的 python 和机器学习算法、项目中对业务的理解
三大块。在学习方法和知识获取上也多走了弯路,浪费了不少时间,如今将它们进行一遍梳理,多为根据本身的理解进行输出与再学习,若是对想探索数据科学的你有一点用,还请点击文末的赞与收藏,给个鼓励。python
数据科学系统学习这个专题将从这三方面进行整理,下面进入正文。算法
数据分析首先是基于某个行业的,而后在这个基础上有必定目的性的去采集、处理、分析并解释数据,最后得出有必定价值信息的过程。网络
其中,行业需求最大的是金融/电商行业,对数据进行处理就须要用到统计方法,最后经过提取有价值的信息来改变业务决策,提升利润指标。框架
总的来讲,用数据科学的知识来完成一个项目,须要进行数据分析
和数据挖掘
两步。机器学习
数据分析和数据挖掘的区别总结以下:学习
统计方法的分析方法分为:描述性统计方法,回归分析,对应分析,因子分析,方差分析等。
数据挖掘的分析方法分为:聚类分析,分类分析,关联规则,回归分析等。spa
描述性分析就是从整体数据中提炼变量的主要信息,即统计量
。这类分析只要明确分析的主题和可能的影响因素,肯定可量化主题和影响因素的指标,根据这些指标的度量类型
选择适用的统计表和图进行信息呈现。code
因为统计推断的算法是根据分析变量的度量类型定制开发的,这就须要分析人员对各种指标的分布类型有所认识,合理选择算法。而深度学习算法是通用的,能够在一个框架下完成全部任务。在数据科学体系中,统计推断的算法每每是数据挖掘算法的基础,好比特征工程中大量使用统计推断算法进行特征创造与特征提取。图片
统计推断与建模方法以下表:开发
数据挖掘的方法分为描述性
与预测性
两种。它们都是基于历史数据进行分析,不一样的是,预测性模型从历史数据中找出规律,并用于预测将来;描述性模型用于直观地反映历史情况,为后续的分析提供思路。
描述性数据挖掘也被称为模式识别,建模数据通常都具备多个属性或变量,属性用于描述各个观测的特征。用于描述现有的规律,常见的算法以下:
预测性数据分析的数据有明确的预测变量与相应的因变量,用于预测将来将发生什么,使用的模型算法有如下几种:
若有不足,欢迎指正。