原文地址:Comprehensive learning path – Data Science in Pythonhtml
假如你想成为一个数据科学家,或者已是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你须要学习的利用Python进行数据分析的全部步骤的完整概述。若是你已经有一些相关的背景知识,或者你不须要路径中的全部内容,你能够随意调整你本身的学习路径,而且让你们知道你是如何调整的。python
开始学习旅程以前,先回答第一个问题:为何使用Python?或者,Python如何发挥做用? 观看DataRobot创始人Jeremy在PyCon Ukraine 2014上的30分钟演讲,来了解Python是多么的有用。git
如今你已经决心要好好学习了,也是时候设置你的机器环境了。最简单的方法就是从http://Continuum.io 上下载分发包Anaconda。Anaconda将你之后可能会用到的大部分的东西进行了打包。采用这个方法的主要缺点是,即便可能已经有了可用的底层库的更新,你仍然须要等待Continuum去更新Anaconda包。固然若是你是一个初学者,这应该没什么问题。 若是你在安装过程当中遇到任何问题,你能够在这里找到不一样操做系统下更详细的安装说明。github
你应该先去了解Python语言的基础知识、库和数据结构。Codecademy上一些免费的Python课是你最好的选择之一。本课程的重点是如何开始使用Python进行数据科学,完成这个课程后,您应该能够熟悉python语言的基本概念,并利用他写一些小脚本。正则表达式
做业:参加由分析公司Vidhya提供的免费Python课程算法
替代资源:若是你不喜欢交互编码这种学习方式,你也能够学习谷歌的Python课程。这个2天的课程系列不但包含前边提到的Python知识,还包含了一些后边将要讨论的东西。express
你会常常用到正则表达式来进行数据清理,尤为是当你处理文本数据的时候。学习正则表达式的最好方法是参加谷歌的Python课程,它会让你能更容易的使用正则表达式。数组
做业:作关于小孩名字的正则表达式练习。数据结构
若是你还须要更多的练习,你能够参与这个文本清理的教程。数据预处理中涉及到的各个处理步骤对你来讲都会是不小的挑战。机器学习
从这步开始,学习旅程将要变得有趣了。下边是对各个库的简介,你能够进行一些经常使用的操做:
根据NumPy教程进行完整的练习,特别要练习数组arrays。这将会为下边的学习旅程打好基础。
接下来学习Scipy教程。看完Scipy介绍和基础知识后,你能够根据本身的须要学习剩余的内容。
这里并不须要学习Matplotlib教程。对于咱们这里的需求来讲,Matplotlib的内容过于普遍。取而代之的是你能够学习这个笔记中前68行的内容。
最后学习Pandas。Pandas为Python提供DataFrame功能(相似于R)。这也是你应该花更多的时间练习的地方。Pandas会成为全部中等规模数据分析的最有效的工具。做为开始,你能够先看一个关于Pandas的10分钟简短介绍,而后学习一个更详细的Pandas教程。
您还能够学习两篇博客Exploratory Data Analysis with Pandas和Data munging with Pandas中的内容。
额外资源:
做业:尝试解决哈佛CS109课程的这个任务。
参加CS109的这个课程。你能够跳过前边的2分钟,但以后的内容都是干货。你能够根据这些做业来完成课程的学习。
如今,咱们要开始学习整个过程的实质部分了。Scikit-learn是机器学习领域最有用的Python库。能够看看该库的简要概述。完成哈佛CS109课程的课程10到课程18,这些课程包含了机器学习的概述,同时介绍了像回归、决策树、总体模型等监督算法以及聚类等非监督算法。你能够根据各个课程的做业来完成相应的课程。
额外资源:
恭喜你,你已经完成了整个学习旅程。你如今已经学会了你须要的全部技能。
如今就是如何练习的问题了,还有比经过在DataHack上和数据科学家们进行竞赛来练习更好的方式吗?(这里应该是做者作了一些更改,记得之前的版本,推荐的是Kaggle。不过都是不错的实战平台)
如今你已经学习了大部分的机器学习技术,是时候关注一下深度学习了。极可能你已经知道什么是深度学习,可是若是你仍然须要一个简短的介绍,能够看这里。
我本身也是深度学习的新手,因此请有选择性的采纳下边的一些建议。deeplearning.net上有深度学习方面最全面的资源,在这里你会发现全部你想要的东西—讲座、数据集、挑战、教程等。
附言:这篇文章虽然是2015年的,可是对于刚入门python,同时想学数据科学的同窗仍是颇有参考价值的。并且点开原文后,做者有在开头更新了一版2019年学习路径,有兴趣的也能够去看看。