利用Python,四步掌握机器学习

为了理解和应用机器学习技术,你须要学习 Python 或者 R。这二者都是与 C、Java、PHP 相相似的编程语言。可是,由于 Python 与 R 都比较年轻,并且更加“远离”CPU,因此它们显得简单一些。相对于R 只用于处理数据,使用例如机器学习、统计算法和漂亮的绘图分析数据, Pthon 的优点在于它适用于许多其余的问题。由于 Python 拥有更广阔的分布(使用 Jango 托管网站,天然语言处理 NLP,访问 Twitter、Linkedin 等网站的 API),同时相似于更多的传统语言,好比 C python 就比较流行。html

在Python中学习机器学习的四个步骤

一、首先你要使用书籍、课程、视频来学习 Python 的基础知识node

二、而后你必需掌握不一样的模块,好比 Pandas、Numpy、Matplotlib、NLP (天然语言处理),来处理、清理、绘图和理解数据。python

三、接着你必需可以从网页抓取数据,不管是经过网站API,仍是网页抓取模块Beautiful Soap。经过网页抓取能够收集数据,应用于机器学习算法。git

四、最后一步,你必需学习机器学习工具,好比 Scikit-Learn,或者在抓取的数据中执行机器学习算法(ML-algorithm)。程序员

1.Python入门指南:

有一个简单而快速学习Python的方法,是在 codecademy.com  注册,而后开始编程,并学习 Python 基础知识。另外一个学习Python的经典方法是经过 learnpythonthehardway ,一个为广大 Python 编程者所推荐的网站。而后还有一个优秀的 PDF, byte of python 。python社团还为初学者准备了一个Python资源列表list of python resources。同时,还有来自 O’Reilley 的书籍 《Think Python》,也能够从这里免费下载 。最后一个资源是 Python 用于计量经济学、统计学和数据分析的介绍:《Introduction to Python for Econometrics, Statistics and Data Analysis 》,其中也包含了 Python 的基础知识。github

2.机器学习的重要模块

关于机器学习最重要的模块是:NumPyPandasMatplotlib 和 IPython 。有一本书涵盖了其中一些模块:《Data Analysis with Open Source Tools》 。而后来自于1.的免费书籍《Introduction to Python for Econometrics, Statistics and Data Analysis》,同时也包括 Numpy,Pandas,Matplotlib 和 IPython这几个模块。还有一个资源是 Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython,也包含了一些很重要的模块。如下是其余免费模块的相关连接: Numpy (Numerical PythonNumpy UserguideGuide to NumPy),  Pandas (Pandas, Powerful Python Data Analysis ToolkitPractical Business PythonIntros to Pandas Data Structure)  和  Matplotlib booksweb

其它资源:算法

3.从网站经过API挖掘和抓取数据

一旦理解了Python的基础知识和最重要的模块,你必须要学习如何从不一样的源收集数据。这个技术也被称做网页抓取。传统的源是网站文本,经过API进入twitter或linkedin一类网站获得的文本数据。网页抓取方面的优秀书籍包括:《 Mining the Social Web》 (免费书籍),《Web Scraping with Python》 和《 Web Scraping with Python: Collecting Data from the Modern Web》。数据库

最后这个文本数据必需要转换为数值数据,经过天然语言处理(NLP)技术完成, Natural language processing with Python 和 Natural Language Annotation for Machine Learning 上面有相应的资料。其它的数据包括图片和视频,可使用计算机图像技术分析: Programming Computer Vision with PythonProgramming Computer Vision with Python: Tools and algorithms for analyzing images  和  Practical Python and OpenCV ,这些是图片分析方面的典型资源。编程

如下例子中包括能够用基本的Python命令行实现,有教育意义,并且有趣的例子,以及网页抓取技术。

4. Python 中的机器学习

机器学习能够分为四组:分类,聚类,回归和降维。

drop_shadows_background2

“分类”也能够称做监督学习,有助于分类图片,用来识别图片中的特征或脸型,或者经过用户外形来分类用户,并给他赋不一样的分数值。“聚类”发生在无监督学习的状况,容许用户在数据中识别组/集群。“回归”容许经过参数集估算一个值,能够应用于预测住宅、公寓或汽车的最优价格。

modules, packages and techniques 罗列了 Python、C、Scala、Java、Julia、MATLAB、Go、R 和 Ruby等语言中全部学习机器学习的重要模块、包和技巧。有关Python机器学习的书籍,我特别推荐《Machine learning in action》。尽管有点短,但它极可能是机器学习中的经典,由于它提到了“集体智慧编程时代”:Programming Collective Intelligence。这两本书帮助你经过抓取数据创建机器学习。最近关于机器学习的出版物大多都是基于模块 scikit-learn 。因为全部的算法在模块中都已实现,使得机器学习很是简单。你惟一要作的事就是告诉 Python ,应该使用哪个机器学习技巧 (ML-technique) 来分析数据。

免费的 scikit-learn教程 能够在 scikit-learn 官方网站上找到。其余的帖子能够经过如下连接获取:

关于机器学习和 Python 中模块 scikit-learn 的书籍:

接下来数月将要发行的书籍包括:

机器学习相关的课程和博客

你想要获得一个学位,加入在线课程,或者参加线下讲习班、大本营或大学课程么?这里有一些关于逻辑分析、大数据、数据挖掘和数据科学的在线教育站点连接:Collection of links 。另外推荐一些在线课程–来自Udacity的Coursera 课程:machine learning  和 Data Analyst Nanodegree。还有一些关于机器学习的博客列表:List of frequently updated blogs

最后是来自 Jake Vanderplas 和 Olivier Grisel,关于探索机器学习的优秀 youtube 视频课程

机器学习理论

想要学习机器学习的理论?那么,《The Elements of statistical Learning》和《 Introduction to Statistical Learning》 是经常被引用的经典。而后还有另外两本书籍:《Introduction to machine learning 》和《 A Course in Machine Learning》。这些连接包括免费的PDF,你不须要付费!若是不想阅读这些书籍,请观看视频:15 hours theory of machine learning

问啊-一键呼叫程序员答题神器,牛人一对一服务,开发者编程必备官方网站:www.wenaaa.com

QQ群290551701 汇集不少互联网精英,技术总监,架构师,项目经理!开源技术研究,欢迎业内人士,大牛及新手有志于从事IT行业人员进入!

相关文章
相关标签/搜索