用Python进行数据分析-1

时间 2020-06-19

原文原文链接

第一章准备工做

1.3 重要的python数据库

Numpy：是python科学计算的基础包，本书大部份内容都基于numpy以及构建于其上的库功能以下：

-快速高效的多维数组对象ndarray。
-用于对数组执行元素级计算以及直接对数组执行数学运算的函数
-用于读写硬盘上基于数组的数据集的工具
-线性代数运算、傅立叶变换、以及随机数的生成
-成熟的c API，用于python插件和原生的c c++ fortran代码访问numpy的数据结构和计算工具python

pandas：提供了快速便捷处理结构化数据的大量数据结构和函数。本书使用最多的pandas对象时dataframe，它是一个面向列（column-oriented）的一个二维表结构，另外一个是series，一个一维的标签化数组对象，pandas兼具numpy高性能的数组计算功能以及电子表格和关系型数据库（如sql）灵活的数据处理功能。它提供了复杂精细的索引功能，以便于更为便捷的的完成重塑、切片和切换，聚合以及选取数据子集的操做，由于数据操做、准备、清洗是数据分析最重要的技能。pandas是本书的重点。

-功能：为一款适用于金融和商业分析的工具
-有标签化的数据结构，支持自动或清晰的数据对齐，这能够防止因为数据不对齐和处理来源不一样的索引，不一样的数据形成的错误。
-集成时间序列功能
-相同的数据结构用于处理时间序列数据和非时间序列数据
-保存元数据的算数运算和压缩
-灵活处理缺失的数据
-合并和其余流行的数据库（例如基于sql的数据库）的关系操做c++

matplotlib：是最流行的用于绘制图表和其余二维数据的可视化python库。很是适合用于建立出版物上用的图表。

-Scipy：是一组专门解决科学计算中各类标准问题域的包的集合，包括下列包：
-Scipy.integrate:数值积分例程和微分方程求解器。
-Scipy.linalg:扩展了由numpy.linalg提供的线性代数例程和矩阵分解功能。
-Scipy.optimize:函数优化器（最小化器）以及根查找算法
-Scipy.signal:信号处理工具
-Scipy.sparse:稀疏矩阵和稀疏线性系统求解器。
-Scipy.stats:标准连续和离散几率分布（如密度分布、采样器、连续分布函数等）、各类统计检验方法以及更好的描述性统计法算法

-numpy和scipy结合使用，便造成了一盒至关完备和成熟的计算平台，能够处理所中传统的科学计算的问题sql

scikit-learn：是python通用的机器学习工具包。子模块包括：

-分类：svm，近邻，随机森林，逻辑回归等等
-回归：lasso，岭回归等等
-聚类：k-均值，谱聚类等等
-降维：pca、特征选择，矩阵分解等等
-选型：网格搜索，交叉验证、度量。
-预处理：特征提取，标准化。shell

stats models：是一个统计分析包，包含经典统计学和计量经济学的算法，有如下子模块：

-回归模型：线性回归，广义线性模型，健壮线性模型，线性混合效应模型等等。
-方差分析anova
-时间序列分析：ar arma arima var 和其余模型
-非参数方法：核密度估计，核回归。
-统计模型结果可视化。数据库

第二章 python语法基础，ipython，jupyter

自省：在变量的先后使用？，可显示对象的信息：

b = [1,2,3]
b?

-使用？？会显示函数的源码
-？还有一个用途，就是搜索Ipython的命名空间。字符和通配符结合，能够匹配全部的名字。数组

%run命令：能够用来运行全部的python程序，假设有一个python文件：shili.py，能够以下运行：

%run shili.py

-这段脚本运行在空的命名空间，所以结果和普通的运行方式python script.py相同，文件中全部定义的变量（import，函数和全局变量，除非报错了）均可以在ipython命令中随后访问。
*笔记：若是向让一个脚本访问ipython中已经定义过的变量，可使用%run -i，在jupyter中，你也可使用%load，它将脚本倒入到一个代码格子中：session

-中断运行中代码：按ctrl-c数据结构

从剪切板执行程序：

%paste#%paste能够直接运行剪切板中的代码
%cpaste#%cpaste有相似的功能，可是会给出一条提示

键盘快捷键

魔术命令：ipython中特殊的命令，被称做魔术命令，这些命令可使普通的任务更快捷，更容易控制ipython系统，魔术命令难过是在指令以前添加%的前缀。例如，能够用%timeit会测量任何python语句的执行时间，魔术命令能够看做是ipython中运行的命令行，许多魔术命令有命令行选项，能够经过？查看。魔术函数默承认以不使用%前缀，可是不能有变量和函数名称相同，这个特色被称为自动魔术，可使用%automatic打开和关闭。一些魔术函数和python函数很像，他的结果能够直接赋值给一个变量。

一些经常使用的ipython魔术命令：
dom

集成matplotlib：ipython在分析极端领域可以流行的缘由之一是它很是好的集成了数据可视化和其余用户界面，好比matplotlib

-在IPython shell中，运行%matplotlib能够进行设置，能够建立多个绘图窗口，而不会干扰控制台session：

%matplotlib
Using matplotlib backend: Qt4Agg

-在jupyter中命令有所不一样：

%matplotlib inline
import matplotlib，pyplot as plt
plt.plot(np.random.randn(50).cumsum())

可变对象与不可变对象：python中的大多数对象都是可变的，好比列表，字典，numpy数组，和用户定义的类型（类）都是可变的，其余的，例如字符串和元组，是不可变的。

字节和unicode：假定知道字符编码，能够将其转换为unicode，例如：

val = “dhfhfff”
val

-能够用encode将这个unicode字符串编码为utf-8：

val_utf8 = val.encode(‘utf8’)

-若是你知道一个字节对象的unicode编码，用decode方法能够解码：

val_utf8.decode(‘utf8’)

-工做中碰到的文件不少都是字节对象，盲目的将全部数据编码为unicode是不可取的。虽然用的很少，可是你能够在字节文本的前面加上一个b：

a = b‘this is shuju’
b‘this is shuju’
decoded = a.decode(’utf8’)
‘this is shuju’

日期和时间：python内建函数的datetime模块提供了datetime，date和time类型。datetime类型结合了date和time，是最经常使用的：

from date time import date time, date,time
dt = datetime(20,11,10,29,20,30,21)
print(day)
print(minute)

-根据datetime实例，你能够用date和time提取各自的对象：

print(dt.data)#输出dt.date()为（20，11，10，29）
print(dt.time)#输出dt.time为（20，30，21）
#strftime方法能够将detetime格式化为字符串
#strptime能够将字符串转换为datetime对象

-当你聚类活着对时间序列进行分组，替换datetime的time字段有时候会颇有用，例如，用0替换分和秒：

dt.replace(minute=0,second=0)
print(datatime.datatime)#输出datetime.datetime为（2011，10，29，20，0）

-由于datetime是不可变类型上面的方法会产生一个新的对象。两个datetime对象的差会产生一个datetime类型，结果（17，7179）指明了将17天7179秒的编码方式。

第三章 python的数据结构、函数和文件

排序：sort（）

-能够用sort将一个列表进行原地排序（不建立新的对象）
-sort有一些可选参数，例如sort（key=len）能够按照字符串的长度对字符串进行排序
-sorted函数———稍后学习

二分搜索和维护已排序的列表：bisect（）

-bisect模块支持二分查询，和向已经排序的列表中插入值。bisect.bisect能够找到插入值后先不插入，而是返回能够插入的位置下标。保持排序的位置。bisect.insort是向能够插入的这个位置插入值：
*注意：bisect模块不会检查列表是否已经排了序，所以，对没有排序的列表进行操做，不会报错，可是结果不必定正确

切片：列表名称（开始位置下标：结束位置下标）例如：list（1：5）

-切片还能够被序列赋值：

list = 【1，2，3，4，5，6】
list[3:4]= [6,3]#会将列表list中位置下标为3的元素换成列表[6,3]也就是说，序列赋值以后的list比原来的列表多了一个元素。

-开始位置的下标和结束位置的下表均可以省略，此时，默认开头和结尾———负数代表从后向前切片 -还能够设置切片的步长：list【1：2：2】的意思是，切下来list列表中下标为1到2的内容，切片方法为隔一个取一个。当第三个参数为-1的话，能够将原来的列表颠倒过来。