书单 | 作数据分析不得不看的书有哪些?

学习这种实践性很强的技术,只看书实际上是一件信噪比很是低的事情。在 DataCastle 的另外一篇文章中,详细给出了一个快速入门数据分析师的学习路径,若是你有兴趣,能够看看:如何快速成为数据分析师html

固然,读书也有读书的学习方法,推荐的书很少,但保证每一本都值得看,更重要的是,给你一条合理的学习路径,并配合一些另外的学习资源,你能对核心的知识、实践的技巧有更好的理解。(如下推荐的书并不是都是必读,也并不是适合每个人,你处于什么阶段,将来发展的方向是什么,须要本身来决定,对每本书详细说明是但愿能购帮助你更好地取舍。)python


1、数据分析入门

1.深刻浅出数据分析 (豆瓣)

把这本书放在第一顺序,是由于它真的很简单,可是可以让你对数据分析的一些基本概念有大体的了解。即使是你毫无数据分析经验,一两天也足够读完整本书了。这本书的实操性并不强,因此也不建议你去跟着去实践,了解做者传达出来的数据分析基本思想和原则就ok了,这对你创建宏观的视野,和接下来的学习颇有帮助。mysql

另外,书中提到的一些案例,好比提高化妆品销量、分析星巴克销量、生产线最优解、网站AB test、竞品分析、薪资预测等等,看起来很简单,但其实都是工做最多见的一些分析场景。这对数据思惟的养成,很是有帮助。算法

我的以为书中最有用的一些点:sql

  • 统计学概念在数据分析中的做用:好比方差、标准差、相关系数、均方根偏差等;
  • 集中数据分析的基本方法:假设检验、回归分析、偏差分析等;
  • 统计图形分析:散点图、直方图等来探索数据中隐藏的规律;
  • 数据库以及数据整理。

这本书很难让你掌握数据分析技术,过一遍便可。但它会大大下降你以后学习的一些阻力,由于接下来推荐的这本,真的很厉害,但也有必定难度。数据库


2. 利用Python进行数据分析 (豆瓣)数组

《利用Python进行数据分析》应该是最经典的数据分析书之一了,做者是 pandas 库的做者 Wes McKinney。因此这本书对于 pandas 的理解,应该是很是深入的,而利用梳理介绍的 pandas、numpy、matplotlib 等库,应对通常的数据分析,彻底足够了。网络

书中应该重点掌握的一些点:框架

  • IPython Notebook 的使用:最适合小白的代码编写环境,很是容易上手;
  • 科学计算库 Numpy:数组和矢量计算、学会利用数组进行数据处理;
  • 数据处理及分析工具 pandas:数据查询,缺失值、重复值、异常值的处理,数据的合并与规整化,基本的描述性分析及可视化;
  • 可视化工具 matplotlib:用这个库,基本的数据可视化问题皆能够解决了。

看上去是否是很简单,这本书就是教会你如何开始使用 Python 进行数据分析,固然首推的就是 pandas,不只能够作数据的预处理,还可以作基本的数据分析和可视化。这个库必定是你开始入门的时候须要重点学习的,其次用 Numpy 进行数组的计算、利用 matplotlib 进行可视化的描述性分析,也是同步须要掌握的东西。机器学习

可是,这个部分光看书是远远不够的,你能够尽可能去找一些能够练手的数据集,来实际操做和调用这些库的功能,确保熟练数据分析中最经常使用的函数和模块。若是纠结去哪找练手的数据,推荐UCI经典数据集

关于 pandas、Numpy、matplotlib 网上应该能够搜索到不少有用的资料、教程,能够看一看别人的使用技巧、应用场景,并经过联系转化成本身的经验。

由于 Python 库的更新迭代很是快,这本书里的一些内容其实已经“过期”了,这里也很是建议你去查看一些官方的文档,基本上你须要的都能查到。

pandas 官方教程文档

Numpy 官方教程文档

matplotlib 官方推荐教程文档

另外,在进行一些数据处理、数据分析的时候,你可能须要去了解一些更细节的 Python 的用法,这里就不推荐书了,由于你不必去系统地学,按照这个菜鸟教程看看或者查询相关的用法就OK了。

Python3 教程 | 菜鸟教程


3. 深刻浅出统计学 (豆瓣)

很是很是基础的统计书,适合任何一个没有基础的小白,文科生也能看懂。有人说这本书简直太简单了,可是对于数据分析来讲,须要用到的刚好是这些最简单的东西。好比基本的统计量,基本上每一个分析项目中都会用到。好比基本的几率分布,整体与样本的概念、置信区间、假设检验、回归分析,我去,都是为数据分析定制的统计学知识。

因此强烈推荐这本,其余的比较深度的书,并不建议在入门的阶段去啃,一方面是不少难以理解,二是即使你花大力气学习了,入门的阶段你也不怎么能在实践中使用。固然多学一些是没有坏处的,但你须要知道在何时学习哪些东西性价比最高。或者你自我感受良好,誓要学最难的,从入门到放弃,得不偿失。

总结起来,须要重点了解的统计学知识以下:

  • 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等;
  • 几率分布:几何分布、二项分布、泊松分布、正态分布等;
  • 整体和样本:了解基本概念,抽样的概念;
  • 置信区间与假设检验:如何进行验证分析;
  • 相关性与回归分析:通常数据分析的基本模型。

这本书很是的简单,可是基本的数据分析的一些方法都有了,你须要作的,是利用以前学过的 Python 的一些库(pandas、Numpy、matplotlib)来实现这些数据分析的方法、实现基本的可视化来进行图形化的分析。


4. 商务与经济统计学 (豆瓣)

固然,若是在后续的数据分析中,你以为统计学的知识掌握得不是扎实,或者你很是重视分析结果中蕴含的统计学规律和原理,那么你能够更深刻地了解几率统计的知识,推荐这本《商务与经济统计学》,固然吴喜之的《统计学》也很是好,选择一本便可,没必要纠结。

相比《深刻浅出统计学》强调易于理解,本书更增强调统计学的思想养成,因此适合有一些经验以后进行提升。不少知识你前期学习可能并很差理解其本质,而当你实际作一些数据分析项目以后,再来看这些本质的思想和原理,会获得更多的启发:哦,原来如此!

不说重点了,整本书都是重点。若是你想跟其余的分析师拉开差距,那么你就须要在有基础以后或者遇到瓶颈的时候再来看看这些经典的思想,没准能给你很多的启发。


5. MySQL必知必会 (豆瓣)

这本书把SQL写的很是简单,没办法,SQL确实也很简单。其实 pandas 就已能够实现不少数据管理的工做,而了解 SQL 的意义在于融入到实际的数据使用的场景。好比企业的数据,可能是以数据库的形式存储起来的,那么若是你须要去调用你须要的那部分数据,那么 SQL 就是必须的技能。若是你在最开始就想用公司的数据来练习,那么你能够把这本书的阅读放到最前面。(固然,若是你不会遇到数据提取的问题,SQL这部分也能够暂时无论,对具体的数据分析没有影响,等到你真正须要用到SQL的时候再学习。)

MySQL 自己比较简单,对于数据分析师来讲,只须要掌握基本的语句和技巧,可以进行基本的数据提取和处理就可以应对通常的数据分析需求了。

书中重点掌握如下几个点:

  • SELECT语句:让你可以去提取你须要的那部分数据;
  • DELETE和UPDATE:知道怎么实现数据的增、删、改;
  • 数据过滤:where、and、or、通配符等过滤方式;
  • 数据的汇总和分组、数据库链接:应对更加复杂的数据和相关联的数据;
  • 子查询:查询中的查询。

固然仍是但愿你去公司的数据库找一些数据来进行练习,若是不方便的话,也能够直接用上述 UCI数据集中的数据来进行实践。

若是遇到问题,能够去菜鸟教程查询相关操做。

MySQL 教程 | 菜鸟教程

好了,恭喜,你已经基本入门了。到此,你就彻底能够去进行一个完整的数据分析项目了,若是你没有头绪,能够去找一些行业的分析报告来看看,找一找分析的思路。可以独立完成一些项目,经过数据分析可以得出一些深入的结论,可以给人以可视化的形式将结果描述出来,可以基于历史数据对将来的一些状况进行预测,那么通常的数据分析岗位,彻底能够胜任了。


6. 数据科学实战 (豆瓣)

这本书应该是数据分析和数据挖掘(机器学习)之间的桥梁。从探索性的数据分析开始,经过数据分析的思惟,引出了机器学习的基本算法:回归分析、k近邻、k均值。接着经过不一样的应场景分别介绍了最多见的机器学习算法,以及在真实场景中的应用。

对于作了一段时间数据分析工做的人,这无疑是进阶更高维度的好书,很难有一本书,可以让你从简单的数据分析平滑地过渡到机器学习和数据挖掘,这本书我认为是这方面作的最好的一本。

因此若是你在作一些探索性的分析遇到瓶颈以后,天然而然会进入数据挖掘和机器学习算法的坑,由于只有更高级的算法和模型,才可以支撑大规模的数据的预测。

下面列出一些书中有意思也比较有用的点:

  • 了解探索性数据分析,为更高级的需求打好基础;
  • 了解机器学习的基本算法,k近邻、k均值等;
  • 用朴素贝叶斯方法作垃圾邮件的过滤;
  • 线性回归和逻辑回归的分析方法;
  • 如何从数据中获取结论,从数据挖掘竞赛开始;
  • 构建本身的推荐系统;
  • 数据泄漏与模型评价,如何筛选模型。


2、R语言数据分析

有同窗是准备用R来作数据分析,也推荐两本很是不错的书,用 Python 的同窗可忽略。

1. R语言实战 (豆瓣)

若是你是要用R语言来作数据分析,那么读完《深刻浅出数据分析》以后,就能够开始读这本书了,深刻浅出,可操做性极强。从工具的安装,到具体分析方法在R语言中的实现,能够说是很是的详细,是一本很是值得读的书。

知识点就不罗列了,这是一本学习路径设计很是合理的书,按照做者的思路跟着所有实现一遍,那么基本的数据分析,也就没问题了。在学会R分析的技巧以后,再看看统计学的相关知识,简直起飞。


2. ggplot2:数据分析与图形艺术 (豆瓣)


ggplot2 是 R 中一个很是强大的可视化包,书中有大量的例子,也能够下载源代码。这本书将 ggplot2 的基本原理和操做讲解的很是清楚和系统,能够说 ggplot2 是目前最优秀的数据分析做图工具之一了。其做者Hadley Wickham是学医出身,但在R数据分析及可视化领域的影响力,也非同小可。

由于本书是 ggplot2 做者(同时也是R语言不少好用的包的做者)Hadley大神本身写的,主要讲的是ggplot2绘图的总体语法思想,思路清晰,墙裂推荐。本书的英文版已经出版到第二版了,方法也从原来初版的qplot更新为ggplot,建议若是英文过了四六级的同窗能够直接学习英文版的教材。

因此对于学习R语言数据分析的同窗来讲,ggplot2 必定是一个不能错过的工具。


3、细分领域业务分析

这个部分实际上是针对具体的业务场景了,有一些细分领域的书籍,能够给你在具体方向的一些分析的技巧和经验,由于关注的指标、数据不一样,因此分析的方法也不尽相同。

1.社交网站的数据挖掘与分析 (豆瓣)

书中介绍了不少社交网站的数据分析方法,若是你在参与社交产品的研发、运营,或者对社交网络的数据感兴趣,那么你能够看看。

书中涉及到 Twitter 等网站的分析会有必定的启发,但其中一些东西由于网站的更新可能不适用了,可是分析方法能够借鉴,你也能够尝试去分析国内的微博之类的社交网络。


2. 精益数据分析 (豆瓣)

书中主要讲到各类产品中用到的指标和模型,这是一本写给产品经理的书,其中并无讲到具体的数据分析技术,涉及到的更可能是数据驱动型产品的一些思路。

好比怎么将数据驱动的产品落地,怎么喂产品设计数据指标。哪些指标对于产品迭代优化更有效,如何依靠数据分析来驱动用户增加等等。


3. 数据挖掘与数据化运营实战 (豆瓣)


这是一本数据化运营的书,但相比上面一本,涉及到的技术层面的东西要多不少。比通常的数据分析更高级一些数据挖掘算法都有涉及,好比决策树、神经网络、支持向量机、关联规则挖掘等等。

以为这本书更好的一点是,它介绍了一些数据分析和运营密切相关的一些模型,好比交易模型、风险模型、推荐模型,这些其实跟电商、风控、推荐系统的自动化运营密切相关。

另外还讨论数据挖掘项目的落地、协做、有效性评价等实战,这就上升到产品的大规模数据挖掘了。前期看这本书会以为特别的枯燥,当你在遇到大规模的真实数据分析、挖掘工做的时候,来看看这本书,或许就能获得一些启发。


4. Python金融大数据分析 (豆瓣)

在互联网金融行业,或者向往这个方面发展的,能够看看这本,在金融分析方面,时间序列会用的比较多,也建议重点了解这一块。

同时须要去了解一些常见的金融数据分析模型,好比常见的估值框架、衍生品分析库等。

最后这几本书,不推荐在前期看,并非没有帮助,而是在相应的领域你有必定的数据分析经验以后,再去看这些书,才能获得更大的收获。


若是你以为看书实操性不强,并且效率比较低的话,正好DC学院也推出了一门数据分析的体系课。提取了目前数据分析类书中最有效的那部分信息,学习路径更加平滑,老师实时答疑。有兴趣能够看看:数据分析师(入门)-DC学院