入门读物:html
- 深刻浅出数据分析 (豆瓣) 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:很是易。
- 啤酒与尿布 (豆瓣) 经过案例来讲事情,并且是最经典的例子。难易程度:很是易。
- 数据之美 (豆瓣) 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和作法很是有帮助。难易程度:易。
- 数学之美 (豆瓣) 这本书很是棒啦,入门读起来很不错!
- SciPy and NumPy (豆瓣) 这本书能够归类为数据分析书吧,由于numpy和scipy真的是很是强大啊。
- Python for Data Analysis (豆瓣) 做者是Pandas这个包的做者,看过他在Scipy会议上的演讲,实例很是强!
- Bad Data Handbook (豆瓣) 很好玩的书,做者的角度很不一样。
- 集体智慧编程 (豆瓣) 学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。做者经过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
- Machine Learning in Action (豆瓣) 用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,可是是以解释清楚为目的的。并且有Python代码,大赞!目前中科院的王斌老师(微博:王斌_ICTIR)已经翻译这本书了 机器学习实战 (豆瓣)。这本书自己质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
- Building Machine Learning Systems with Python (豆瓣) 虽然是英文的,可是因为写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
- 数据挖掘导论 (豆瓣) 最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课做为教材,没有推荐Jiawei Han老师的那本书,由于我的以为那本书对于初学者来讲不太容易读懂。难易程度:中上。
- Machine Learning for Hackers (豆瓣) 也是经过实例讲解机器学习算法,用R实现的,能够一边学习机器学习一边学习R。
稍微专业些的:算法
- Introduction to Semi-Supervised Learning (豆瓣) 半监督学习必读必看的书。
- Learning to Rank for Information Retrieval (豆瓣) 微软亚院刘铁岩老师关于LTR的著做,啥都不说了,推荐!
- Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
- 推荐系统实践 (豆瓣) 这本书不用说了,研究推荐系统必需要读的书,并且是第一本要读的书。
- Graphical Models, Exponential Families, and Variational Inference (豆瓣) 这个是Jordan老爷子和他的得意门徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的创刊号,能够免费下载,比较难懂,可是一旦读通了,graphical model的相关内容就能够踏平了。
- Natural Language Processing with Python (豆瓣) NLP 经典,其实主要是讲 NLTK 这个包,可是啊,NLTK 这个包几乎涵盖了 NLP 的不少内容了啊!
机器学习教材:编程
- The Elements of Statistical Learning (豆瓣) 这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,很是赞!能够参照着代码学习算法。
- 统计学习方法 (豆瓣) 李航老师的扛鼎之做,强烈推荐。难易程度:难。
- Machine Learning (豆瓣) 去年出版的新书,做者Kevin Murrphy教授是机器学习领域中年少有为的表明。这书是他的集大成之做,写完以后,就去Google了,产学研结合,没有比这个更好的了。
Machine Learning (豆瓣) 这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 以前作过我带的研究生教材,因为配有代码,因此理解起来比较容易。网络
- Pattern Recognition And Machine Learning (豆瓣) 经典中的经典。
- Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,不折不扣的Bayesian学派的书,里面的内容很是多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
- Probabilistic Graphical Models (豆瓣) 鸿篇巨制,这书谁要是读完了告诉我一声。
- Convex Optimization (豆瓣) 凸优化中最好的教材,没有之一了。课程也很是棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。
《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)框架
做者之一Rachel Schutt本科在密歇根大学学习数学,同时拥有纽约大学数学硕士学位,以及斯坦福大学工程经济系统和运筹学双硕士学位,美国哥伦比亚大学统计学博士学位,然后在谷歌研究所担任统计学专家。Johnson研究实验室的高级科学家兼创始人之一,目前在哥伦比亚大学讲授“数据科学导论”(Introduction to Data Science)课程。她提出了 数据科学家的概念即“计算机科学家、软件工程师和统计学家的混合体。”另外一位做者Cathy O’Neil是哈佛大学数学博士,麻省理工学院数学系博士后,目前在华尔街的德劭基金(D.E.Shaw)作quant。(总之是两个大牛XD)本书前面几个章节大体介绍了数据分析法、一些机器学习算法、线性回归和逻辑回归、朴素贝叶斯等等。其中有一些内容须要一些数学基础才能吃透。 第六到十章节是本书的精华,详细介绍了如何利用金融及社交网络中的数据进行数据建模分析,值得反复回味。机器学习
《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)分布式
本书适合刚入行的数据爱好者以及有两三年工做经验数据科学家,做者立志打造一个full-stack解决方案(包括开发框架、运行环境等,有了它无需再下载别的软件)来减小前期在数据准备上必须花费的大量时间。此外书中的一些例子放在了GitHub上,建议一边看书一边DIY。- 《Fast Data Processing with Spark》:Fast Data Processing with Spark (豆瓣)
《New Internet:大数据挖掘》 —— 是MS的一位资深专家写的,从算法到工具,再到DM在日志分析、营销邮件、电商、移动等业务中的实际应用,内容有较全面的介绍,语言浅显易懂,做DM领域进门读物很不错。而且在每章节后都有提供本章提到的工具或数据来源,方便学习。工具
《数据挖掘与数据化运营实战:思路、方法、技巧与应用》—— 这是ALi的一位数据专家写的,从书名能看出这本偏运营实践,里面有不少电商方面的实践案例。固然也有几章节概述DM工具和算法,做为入门介绍。oop
一、谁说菜鸟不会数据分析 (豆瓣) 其实EXCEL在工做中仍是大杀器,缘由是易传承,好传播学习
二、调查研究中的统计分析法 (豆瓣) 统计学确定要了解,统计学书均可以的
三、SPSS统计分析精要与实例详解 (豆瓣) SPSS的内容,我是从这本书开始看的,由于这本书每一个方法都有案例,能够直接看案例明白理论的做用,再加上 SPSS官方说明文档 基本上就够了
四、数据挖掘与数据化运营实战 (豆瓣) ali的专家写的,看了这本书能理解不少方法的适用场景,适用场景和数据解读能力对于业务能力要求很高。
《数据仓库工具箱:维度建模的彻底指南》
《Microsoft数据仓库工具箱》
《SQL Server 2008 分析服务从入门到精通》
《SQL Server 2008 报表服务从入门到精通》
另外,推荐如下连接:
原文地址:知乎
本文转自连接: http://www.zhihujingxuan.com/19146.html进行了从新整理