Jupyter+Docker玩转《Python数据分析基础》

近年来,数据分析师成为了一个高薪而又热门的职业,若是你想跨入这一行又没什么编程基础,那么学习Python绝对是一个好的选择。由于Python的代码风格使代码更易于阅读和理解,和其余语言相比,其学习曲线没有那么陡峭。Python的一系列丰富的内建库和附加库能够方便地完成许多通常的数据处理和分析操做,让你能够轻松地一站式完成数据处理与分析任务,从而大大减轻编程的工做量。python

Python数据分析基础封面


开发环境搭建

若是你仍是一个不会编程的小白,那么从安装python到下载各类包再到运行起程序的整个过程都够让你喝一壶的了。《Python数据分析基础》书中推荐了Anaconda Python,不过笔者认为安装Anaconda Python依然略显繁琐,下面是笔者总结的只须要三步就能玩转《Python数据分析基础》的具体步骤:docker

一、安装Docker

Docker是什么?可参考拙做《离不开的工具之Docker开发指南》,简单讲是一个用于环境封装的工具(集装箱)。若是没精力去了解也不要紧,你只须要知道Docker用起来很方便就好了。Windows用户 从https://www.docker.com/docker-windows下载,Mac用户从https://www.docker.com/docker-mac下载,只需轻点Download Now from Docker Store按钮,循序渐进的等待安装完成便可。编程

二、下载jupyter/scipy-notebook的Docker镜像

Jupyter是什么?Jupyter是一个交互式笔记本(大名鼎鼎的 IPython notebook 是它的原名,大部分入门型的Python书里都会提到它,本书也不例外)。用Jupyter写代码能够自动补全,比记事本高到不知哪里去了,每一段代码(cell)的运行结果能能够根据你的须要(代码)以文字、表、图等方式展示出来,并且会像真正的笔记本同样把结果保留在页面上,以便纵向对比。windows

然而Jupyter如今已经不仅是Python的编辑器这么简单了,实际上它支持40多种编程语言,好比R、Ruby、Javascript、C#、Go、Scala、Erlang、以及新兴的Julia等…… ,根据任务和编程语言的不一样,jupyter提供多种了预先打包好的官方镜像(https://hub.docker.com/r/jupyter/),和数据分析和科学计算有关的主要有两个镜像:一、scipy-notebook(https://hub.docker.com/r/jupyter/scipy-notebook/),是纯Python3.x环境;二、datascience-notebook(https://hub.docker.com/r/jupyter/datascience-notebook/)预装了Python、R、Julia,适合更高级的混合式开发。对于本书而言,完成全部的教程只须要安装scipy-notebook镜像,该镜像已经预装了本书全部用到的数据分析库。浏览器

介绍了这么多,到底怎么下载呢?其实很简单,只须要敲入一行命令便可 ——服务器

docker pull jupyter/scipy-notebook编程语言

三、运行jupyter/scipy-notebook

用docker下载完 scipy-notebook 镜像后,咱们敲入如下指令 ——编辑器

docker run -it --rm -p 8888:8888 jupyter/scipy-notebook工具

稍等一下,就会给出提示:学习

Copy/paste this URL into your browser when you connect for the first time, to login with a token:

http://localhost:8888/?token=84222a835fff50f7sssss9c8bb4a45a2e13dd387a86zzz

咱们这时候只须要把最后那一行地址拷贝到浏览器,就能够见到一个搭建好的交互式Python数据分析开发环境了!是否是很简单?


数据分析起步

一、第一行程序

如图所示,在Jupyter右侧菜单的New下选择Python3 第一步:打开python命令行

会自动进入Python的命令行交互环境,咱们试着敲入第一行代码,而后点击工具条上的 '⏯ Run'按钮,立刻就能够看到执行结果。 第一行代码


二、读文件

数据分析的数据来源有很大头是各类类型的文件,从文件中读取数据是基本功,咱们先尝试本身读一个本身编写的文件:

  • (1)在Jupyter主入口的Files选项卡上选择 New -> Text File ,输入几行文字,再选择 File -> Save,会在主目录下看到一个 'untitled.txt' 文件,这就是你刚编辑过的文件,选择该文件,再在工具栏选择 Rename,能够修改其名称,咱们把这个文件更名为 'abc.txt'enter image description here
  • (2)在程序交互区域,输入以下代码 ——

input_file = 'abc.txt'

print("Output #144:")

with open(input_file, 'r', newline='') as filereader:

for row in filereader:

    print("{}".format(row.strip()))
  • (3)点击 'Run'按钮,就能够获得以下结果 程序1

三、上传并处理csv文件

  • (1)咱们按第二章开头提供的地址,获取一个名为supplier_data.csv的文件
  • (2)在Jupyter主入口的Files选项卡上选择 Upload,会弹出文件选择对话框,选好要上传的文件,再点击upload,便可将指定文件传到Jupyter“服务器”上。 上传
  • (3)在程序交互区,输入以下代码

import sys import pandas as pd

input_file = 'supplier_data.csv'

output_file = 'abc.csv'

data_frame = pd.read_csv(input_file)

print(data_frame)

data_frame.to_csv(output_file, index=False)

  • (4)点击 'Run'按钮,就能够看到格式化好的数据。而且在Jupyter的文件区咱们还能够看到一个新生成的文件'abc.csv' 程序2

四、用matplotlib绘制图表📈

数据的可视化是咱们作数据分析的重要组成部分,用Jupyter + matplotlib也能够轻松的完成这一工做。 咱们在交互区输入第6章6.1.3中的代码,点击 'Run'按钮,一幅漂亮的折线图就产生了。 程序3


总结:《Python数据分析基础》确实书如其名,很是的基础,能够把一个程序小白,手把手的带入数据分析的世界。

而咱们利用Jupyter+Docker能够更加省去不少繁琐的安装/配置环节,更快的实现Python数据分析入门。

相关文章
相关标签/搜索