做者:Shreyas Raghavangit
翻译:老齐算法
与本文相关的图书推荐:《数据准备和特征工程》编程
本书已经由电子工业出版社出版发行,购买地址:电子工业出版社天猫旗舰店bash
不是好久之前,商人们每每找占星家来预测下明年是否能挣钱,虽然这毫无根据,而且结果也不肯定,但若是听专家的建议来为本身的商业行为做出决定,与此有什么本质却别?如今不一样了,咱们正在变化,目前已经能够基于事实和数字进行预测。微信
咱们生活在一个大数据的世界中,去Domino商店订购披萨,他们首先要问你的手机号,经过该手机号,他们可以提取出你的住址、购买记录等信息,可是是否仅限于列出这些数据? 仍是咱们能够根据这些数据作些什么?这就是数据科学家的职责了。markdown
如今,咱们就来探讨一些分析数据的工具。机器学习
SAS,是“ Statistical Analysis System”的简称,能够用于高级分析、数据管理、商业智能,它是NCSU(北卡罗来纳州立大学)从1966年到1976年研发的许可软件,如今仍然被普遍应用,特别是财富500强的公司都在应用。编程语言
R语言,是一种开源高级语言,提供了不少分析和统计的模块,包含了不少开源库,主要操做在命令行界面实现。函数
Python语言,我我的最喜欢了。Python是门革命性的语言,本文就要使用此语言。它是由吉多·范罗索姆(Guido Van Rossum)发明的一种高级编程语言,开源,天天都会有不少库产生。若是你打算在机器学习、人工智能领域从业,Python是一门理想的编程语言。工具
如今,咱们就要来看看Python在数据科学中的应用。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
复制代码
此处,咱们引入了三个基本的库,你的项目大概有90%都会用到这三个库,它们都有什么做用呢?
train = pd.read_csv('train.csv') 复制代码
以上,咱们载入了数据集,pd
是对pandas
的重命名(import pandas as pd
),read_csv
是pandas里的一个函数,train.csv
是一个已经存在的文件。用上面的命令成功地在当前Python环境中加载了文件,从而建立了一个DataFrame对象。
train.head()
复制代码
什么是head?不是人体的顶部的吗?Pandas用head
函数,是要给咱们呈现DataFrame对象中前面的若干条记录,默认显示前5条。
若是head(20)
就会返回前20条记录,是否是颇有意思?
咱们也能够用tail()
查看最后5条记录(默认值是5)。
下面是head()
的输出结果:
到如今,已经从DataFrame数据集中获得了前5条记录了。
接下来,重要的事情是你要了解所处理的数据集,好比大小、形状和描述性统计,这些信息对咱们进一步处理数据都很是有用,也就是说,咱们必须了解数据集(注:《数据准备和特征工程》一书中对此内容作了更详细的阐述,请参考。)由于有少数数据集很大,处理它们才是真正的痛苦工做,咱们须要从中找到有用的信息,并剔除不须要的内容,这听起来彷佛很容易,但真正作起来,很是困难。
从输出结果中能够看到,咱们如今操做的数据有891行,12列,总共有10692个数据。
让咱们再来看看基本的统计:
这里呈现的统计数据,好比计数、平均值、百分位、标准差等,在咱们处理金融数据或者研究数据间关系是,都是很是重要的。
继续,咱们要实施数据可视化,这是数据科学中最重要的技能,必须会。前面已经导入了matplotlib,这是数据可视化中应用很是普遍的库,若是你去搜索,还会发现别的库,但matplotlib是广受欢迎的。
对于数据科学家而言,最重要的是知道用什么方式进行表达,下面就讨论这个问题,而后演示代码。
进行数据可视化,必需要知道的几件事:
这些会影响图示的效果。
上面这张图帮助咱们理清楚什么时候用何种类型的可视化方式。
对于学习数据可视化而言,上面的图示是具备高度参考价值的。不少公司都但愿经过数据告诉咱们吸引人的故事。
可视化工具,好比Tableau、PowerBI等建立的仪表盘,可以告诉咱们数据中的故事。
如今,咱们要研究如何用matplotlib实现数据可视化:
前面已经引入了matplotlib,并命名别称为plt。从第一行开始,用参数figsize
设置了图示的大小,一般,咱们可使用默认值。接下来,就回执年龄的图示。
咱们可以设置标签,xlable
意味着x轴,ylable
意味着y轴,titile
用于设置图示的标题。
经过图示,咱们可以从数据中获得一些信息,能推论出如下各项吗?
咱们经过图示,可以推断出的还不少。
固然,咱们也可以用这个数据集作其余类型的统计图。
数据中用二进制的方式标识了一我的是否获救,这是咱们下面要研究的内容,经过统计模型进行预测。
让咱们继续,依靠前面的数据,用计算机来预测一个乘客是否能获救。
到目前,咱们已经完成了载入数据、数据可视化,以及如何根据数据进行推论,如今咱们要看看哪一个算法能够用于预测。
在机器学习中,有两类算法:
有监督学习的典型例子是回归,而贝叶斯则是无监督学习的典型示例。
可是,对于本文中的数据,咱们打算用Logistic回归试试。具体怎么作?
Logistic回归可以帮助咱们预测某数据的标签是true仍是false。基本过程是用给定的数据输入到机器中,而后机器用回归模型进行计算,最后告诉咱们一个二进制形式的结果。
根据维基百科,Logistic回归,或者logit回归、logit模型,是一种回归模型,它的因变量是分类型的。本文中的因变量用二级制形式表示,即只取两个数,“0”或者“1”,这种二进制方式能够表明不一样的输出结果,好比经过/挂科、赢/输、生/死,或者健康/生病等。若是因变量是超过两个值得分类数据,能够用多元Logistic回归。若是多个类型值是有顺序的,能够用序数Logistic回归。在经济领域,Logisti回归是一种反应定性问题或者离散问题的模型示例。
那么,Logistic回归在这里对咱们有什么用?
咱们已经有用二进制形式表示获救状况的列,这已不是问题。可是,咱们须要将性别(gender)列的值修改成1和0,这样咱们就能依靠性别预测一我的是否获救。
须要导入sklearn库,sklearn很是强大,它不只仅是统计工具。
按照下面的操做:
from sklearn.linear_model import LogisticRegression
复制代码
从sklearn库中引入Logistic回归模块。
为了使用Logistic回归,先要具有两组数据:
将性别转化为二级制形式以后,就可使用LogisticRegression
模型预测输出结果了。
首先,咱们将训练集中的Survived列做为Logistic回归模型的输出。
为此,已经将数据集划分为训练集和测试集。
下面逐步来看看上面的过程:
以上就是计算机如何经过学习进行预测的过程,固然还有别的模型,之后有机会还要介绍对模型的评估方法,好比评估分数、矩阵分数等。
但愿此文对你有启发。「老齐教室」这个微信公众号中还有不少数据科学、机器学习的文章,共学习者参考。
原文连接:towardsdatascience.com/how-to-begi…
搜索技术问答的公众号:老齐教室
在公众号中回复:老齐,可查看全部文章、书籍、课程。
以为好看,就点赞转发/strong>