近年来,数据分析师成为了一个高薪而又热门的职业,若是你想跨入这一行又没什么编程基础,那么学习Python绝对是一个好的选择。由于Python的代码风格使代码更易于阅读和理解,和其余语言相比,其学习曲线没有那么陡峭。Python的一系列丰富的内建库和附加库能够方便地完成许多通常的数据处理和分析操做,让你能够轻松地一站式完成数据处理与分析任务,从而大大减轻编程的工做量。python
若是你仍是一个不会编程的小白,那么从安装python到下载各类包再到运行起程序的整个过程都够让你喝一壶的了。《Python数据分析基础》书中推荐了Anaconda Python,不过笔者认为安装Anaconda Python依然略显繁琐,下面是笔者总结的只须要三步就能玩转《Python数据分析基础》的具体步骤:docker
Docker是什么?可参考拙做《离不开的工具之Docker开发指南》,简单讲是一个用于环境封装的工具(集装箱)。若是没精力去了解也不要紧,你只须要知道Docker用起来很方便就好了。Windows用户 从https://www.docker.com/docker-windows下载,Mac用户从https://www.docker.com/docker-mac下载,只需轻点Download Now from Docker Store按钮,循序渐进的等待安装完成便可。编程
Jupyter是什么?Jupyter是一个交互式笔记本(大名鼎鼎的 IPython notebook 是它的原名,大部分入门型的Python书里都会提到它,本书也不例外)。用Jupyter写代码能够自动补全,比记事本高到不知哪里去了,每一段代码(cell)的运行结果能能够根据你的须要(代码)以文字、表、图等方式展示出来,并且会像真正的笔记本同样把结果保留在页面上,以便纵向对比。windows
然而Jupyter如今已经不仅是Python的编辑器这么简单了,实际上它支持40多种编程语言,好比R、Ruby、Javascript、C#、Go、Scala、Erlang、以及新兴的Julia等…… ,根据任务和编程语言的不一样,jupyter提供多种了预先打包好的官方镜像(https://hub.docker.com/r/jupyter/),和数据分析和科学计算有关的主要有两个镜像:一、scipy-notebook(https://hub.docker.com/r/jupyter/scipy-notebook/),是纯Python3.x环境;二、datascience-notebook(https://hub.docker.com/r/jupyter/datascience-notebook/)预装了Python、R、Julia,适合更高级的混合式开发。对于本书而言,完成全部的教程只须要安装scipy-notebook镜像,该镜像已经预装了本书全部用到的数据分析库。浏览器
介绍了这么多,到底怎么下载呢?其实很简单,只须要敲入一行命令便可 ——服务器
docker pull jupyter/scipy-notebook编程语言
用docker下载完 scipy-notebook 镜像后,咱们敲入如下指令 ——编辑器
docker run -it --rm -p 8888:8888 jupyter/scipy-notebook工具
稍等一下,就会给出提示:学习
Copy/paste this URL into your browser when you connect for the first time, to login with a token:
http://localhost:8888/?token=84222a835fff50f7sssss9c8bb4a45a2e13dd387a86zzz
咱们这时候只须要把最后那一行地址拷贝到浏览器,就能够见到一个搭建好的交互式Python数据分析开发环境了!是否是很简单?
如图所示,在Jupyter右侧菜单的New下选择Python3
会自动进入Python的命令行交互环境,咱们试着敲入第一行代码,而后点击工具条上的 '⏯ Run'按钮,立刻就能够看到执行结果。
数据分析的数据来源有很大头是各类类型的文件,从文件中读取数据是基本功,咱们先尝试本身读一个本身编写的文件:
input_file = 'abc.txt'
print("Output #144:")
with open(input_file, 'r', newline='') as filereader:
for row in filereader: print("{}".format(row.strip()))
import sys import pandas as pd
input_file = 'supplier_data.csv'
output_file = 'abc.csv'
data_frame = pd.read_csv(input_file)
print(data_frame)
data_frame.to_csv(output_file, index=False)
数据的可视化是咱们作数据分析的重要组成部分,用Jupyter + matplotlib也能够轻松的完成这一工做。 咱们在交互区输入第6章6.1.3中的代码,点击 'Run'按钮,一幅漂亮的折线图就产生了。
总结:《Python数据分析基础》确实书如其名,很是的基础,能够把一个程序小白,手把手的带入数据分析的世界。
而咱们利用Jupyter+Docker能够更加省去不少繁琐的安装/配置环节,更快的实现Python数据分析入门。