【Python数据分析】四级成绩分布 -matplotlib,xlrd 应用

时间 2019-11-18

标签 Python数据分析四级成绩分布 matplotlib xlrd 应用栏目 Python 繁體版

原文原文链接

最近得到了一些四级成绩数据，大概500多个，因而突发奇想是否可以看看这些成绩数据是否知足所谓的正态分布呢？说干就干，因而有了这篇文章。
文章顺带介绍了xlrd模块的一些用法和matplotlib画自定义数据的条形图和随机的条形图的一些方法，而且提供了一些相关连接，可做为学习matplotlib和numpy的资源，但愿对读者也有帮助。html

更优美的格式见这里python

工具

Python 3.5
xlrd模块
numpy模块及一些依赖模块（安装请自行查询方法，绝大部分pip就可搞定）
matplotlib绘图模块

xlrd基本用法

一、导入模块

1	import xlrd

二、打开Excel文件读取数据

1	data = xlrd.open_workbook('excelFile.xls')

三、使用技巧

获取一个工做表数组

1
2
3

table = data.sheets()[0] #经过索引顺序获取
table = data.sheet_by_index(0) #经过索引顺序获取
table = data.sheet_by_name(u'Sheet1')#经过名称获取

获取整行和整列的值（数组）dom

table.row_values(i)
table.col_values(i)
``` 
* 获取行数和列数
```python
nrows = table.nrows
ncols = table.ncols

循环行列表数据svn

1 2	for i in range(nrows ): print table.row_values(i)

单元格函数

1 2	cell_A1 = table.cell(0,0).value cell_C4 = table.cell(2,3).value

使用行列索引工具

1 2	cell_A1 = table.row(0)[0].value cell_A2 = table.col(1)[0].value

简单的写入学习

row = 0
col = 0
 #类型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
ctype = 1 value = '单元格的值'
xf = 0 # 扩展的格式化
table.put_cell(row, col, ctype, value, xf)
table.cell(0,0) #单元格的值'
table.cell(0,0).value #单元格的值'

画折线图

import xlrd
import numpy as np
import matplotlib.pyplot as plt

data = xlrd.open_workbook('D:\\Python Workspace\\Data\\cet4.xls')

table = data.sheets()[0] #sheet 0

col5 = table.col_values(5)[1:] #取第5列的成绩，并去掉列属性名称

count = [0 for i in range(0,650)] #初始化count
x = [i for i in range(0,650)]

for i in col5:
 num = int(i)
 count[num] += 1 #统计每一个人数的人数

plt.xlabel('Score')
plt.ylabel('Number of people')
plt.title('Distribution of CET-4 Scores')
plt.ylim(0,8)
plt.plot([i for i in range(250,650) if count[i] != 0],[i for i in count[250:] if i != 0],linewidth=1) #画出折线图
plt.show()

图1spa

画直方图并与正态分布直方图对比

import xlrd
import numpy as np
from math import *
import pylab as pl
import matplotlib.pyplot as plt

data = xlrd.open_workbook('D:\\Python Workspace\\Data\\cet4.xls')

table = data.sheets()[0]   #sheet 0

col5 = table.col_values(5)[1:]

ha = [int(i) for i in col5]     #成绩数据
mu = np.mean(ha)      #平均值
sigma = np.std(ha)    #标准差
data = np.random.normal(mu,sigma,1000)  #生成正态分布随机数据

x = np.linspace(0,700,1000)
y = (1. / sqrt(2 * np.pi) / sigma)*np.exp( -((x-mu)**2/(2*sigma**2)) )

plt.hist(data,bins=100,facecolor='g',alpha=0.44)
plt.hist(ha,bins=70,facecolor='r',histtype='stepfilled')
plt.plot(x,y,color='b')   #正态分布曲线

plt.xlabel('Score')
plt.ylabel('Number of people')
plt.title('Distribution of CET-4 Scores')
plt.show()

图2
且可求得数据的均值和标准差分别为：476.743785851和104.816562585
由图可见，绿色条形图是$\mu$=476.743785851，$\sigma$=104.816562585的正态分布条形图，而红色是四级成绩数据的分布图，虽然因为数据较少(500多个数据），因此拟合较差，可是能够看出成绩数据仍是基本知足正态分布的。
不知道为啥，正态曲线没有画出来，单独画正态曲线是能够画出来的，有待研究。.net

绘制直方图的一些参数解释

绘图均可以调用matplotlib.pyplot库来进行，其中的hist函数能够直接绘制直方图。

调用方式：

1	n, bins, patches = plt.hist(arr, bins=10, normed=0, facecolor='black', edgecolor='black',alpha=1，histtype='bar')

hist的参数很是多，但经常使用的就这六个，只有第一个是必须的，后面四个可选

arr: 须要计算直方图的一维数组

bins: 直方图的柱数，可选项，默认为10

normed: 是否将获得的直方图向量归一化。默认为0

facecolor: 直方图颜色

edgecolor: 直方图边框颜色

alpha: 透明度

histtype: 直方图类型，‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’

返回值：

n: 直方图向量，是否归一化由参数normed设定

bins: 返回各个bin的区间范围

patches: 返回每一个bin里面包含的数据，是一个list

摘自这里 from denny

一些连接

matplotlib

库的主页
gallary

matplotlib的一些示例及其代码，是很好的学习工具。
用python作科学计算

用Python做科学计算的一些工具
xlrd文档
numpy的一些方法