Python自己的数据分析功能不强,须要安装一些第三方的扩展库来加强的它的能力。咱们课程用到的库包括Numpy、Matplotlib、Pandas等,下面对这三个库作一个简单介绍,后面会经过案例深刻讲解相关库的使用。python
Python并无提供数组的功能。虽然列表能够完成基本的数组功能,但它不是真正的数组,并且在数据量较大的时候,使用列表的速度会慢的让人难以接受。为此,Numpy提供了真正的数组功能,以及对数据进行快速高效处理的函数。Numpy仍是不少更高级的扩展库的依赖库,后面讲解的Matplotlib库、Pandas库都依赖于它。值得强调的是,Numpy内置函数处理数据的速度是C语言界别的,由于在编写程序的时候,应当尽可能使用它们内置的函数,避免出现效率瓶颈的现象。程序员
Numpy是Python中至关成熟和经常使用的库,所以关于它的教程有不少。django
不管是数据挖掘仍是数学建模,都免不了数据可视化的问题。对于Python来讲, Matplotlib来讲是最著名的会图库,它主要用于二维绘图。它可让咱们很是快捷的用Python可视化数据。编程
Pandas是Python下最强大的数据分析工具。它包含高级的数据结构和精巧的工具,使得在Python中处理数据很是快速和简单。Pandas构建与Numpy之上,它使得以Numpy为中心的应用很容易被使用。其最初是被做为金融数据分析工具而开发出来的,由AQR Capital Management公司于2008年4月开发出来并于2009年开源。windows
Pandas功能很是强大,支持相似与SQL的数据增、删、改、查,而且带有丰富的数据处理函数,支持灵活的处理缺失数据。api
Anaconda是一个用于科学计算的Python发行版,支持Linux、Mac、Windows. 提供了包管理和不一样Python环境管理的功能, 能够很方便解决多版本Python问题和各类包安装问题. Anaconda使用conda命令来进行包管理和虚拟环境管理.数组
anaconda和conda区别: conda是一个工具,主要是进行包管理和虚拟环境管理. anaconda是一个包含了众多的package、科学计算工具的集合, 因此咱们也称Anaconda为Python的一个发行版.数据结构
# 建立Python版本3.4的环境my-env-py3 conda create --name my-env-py3 python=3.4 # activate激活环境 # Windows命令没有source # activate my-env-py3 # Linux & Mac激活命令 source activate my-env-py3 # 查看版本 python --version # for Windows deactivate my-env-py3 # for Linux & Mac source deactivate my-env-py3 # 删除一个已有的环境 conda remove --name python34 --all
# 安装第三方包 conda install django=1.8.2 # 卸载第三方包 conda uninstall django
在进行数据分析时,咱们须要和其余人进行沟通,重现咱们整个分析过程,并将说明文字、代码、图表、公式、结论都整理在一个文档中, 也就是说数据分析的过程是一个不断计算,而且绘图的工做流程。 显然传统的文本编辑器并不能很好知足咱们的需求,咱们今天使用一款数据分析编辑器jupyter notebook.app
咱们之前在编写代码的时候,读者是机器,而不是人,因此咱们按照计算机的逻辑思惟来编写程序,咱们进行数据分析,读者就再也不是机器,而是人了,因此咱们须要从编写让机器读得懂的代码过渡到人们解说如何让机器实现咱们的想法,其中除了代码,更多的是叙述性文字、图表内容。因此数据分析师不只是一个好程序员仍是一个好做家。好做家就须要一款好的编辑器,jupyter notebook 就是一款集编程与写做于一体的效率工具。编程语言
说到 Jupyter 你会以为陌生,但你或多或少听过鼎鼎大名的 IPython。其实Jupyter 脱胎于 IPython 项目,IPython 顾名思义,是专一于 Python 的项目,但随着项目发展壮大,已经不只仅局限于 Python 这一种编程语言了。Jupyter 的名字就很好地释义了这一发展过程,它是 Julia、Python 以及 R 语言的组合,字形相近于木星(Jupiter),并且如今支持的语言也远超这三种了。
pip install virtualenv pip install virtualenvwrapper-win mkvirtualenv data-env-py3
2. 安装工具包
pip install numpy pip install matplotlib pip install pandas # windows可直接安装whl包 pip install jupyter
3. 打开jupyter notebook
workon data-env-py3 jupyter notebook
显示效果以下:
效果图以下:
shirt + 回车 --------> 当前代码所有执行,并跳到下一行
ctr + 回车---------> 只执行当前行,不跳到下一行
输入代码
10+20
输入代码
import matplotlib.pyplot as plt plt.plot([1,2,3,4],[2,4,6,8]) plt.show()
这个位置能够选择marterdang语法
#号和输入的内容之间要有空格
点击这里能够给当前的文件重命名
命名前:
命名后