Mr.林:小白,咱们已经学会了数据导入,那么今天就来学习如何进行基本统计分析。
小白:好啊!
Mr.林:基本统计分析,又叫描述性统计分析,它是指运用制表、分类、图形以及计算归纳性数据来描述数据特征的各项活动,以发现其内在规律的统计分析方法。
描述性统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的频数分布分析等,经常使用的统计指标有:计数、求和、平均值、方差、标准差等。
在Pandas 中,使用describe 函数进行描述性统计分析。
咱们继续使用导入使用的案例数据进行学习,输入如下代码:python
1import pandas 2data = pandas.read_csv( 3'D:/D/data.csv', 4 engine='python', 5 encoding='utf8' 6)
Mr.林:执行后,在变量浏览窗口中就能够看到刚导入的data变量了,双击打开data变量,就能够获得下面这张表。
而后输入如下代码ide
1# 对数据框进行描述统计分析 2data.describe()
执行后,直接在输出窗口中能够查看结果。函数
1 id age 2count 59101.000000 59101.000000 3mean 149829.546471 27.228862 4std 28772.846683 5.389559 5min 100000.000000 3.000000 625% 124850.000000 24.000000 750% 150032.000000 26.000000 875% 174773.000000 29.000000 9max 199501.000000 87.000000
能够看到describe 函数仅对id、age这两列数据进行描述统计分析,小白,你知道为何吗?
小白:由于只有这两列才是数值型数据。
Mr.林:是的,咱们继续看,给出的结果有count(计数)、mean(平均值)、std(标准差)、min(最小值)、25%(第一四分位数)、50%(中位数)、75%(第三四分位数)、max(最大值),这样咱们就能够对数据有个基本的了解。
小白:id这列数据其实统计mean(平均值)、std(标准差)、25%(第一四分位数)、50%(中位数)、75%(第三四分位数)这几个指标好像意义不大。
Mr.林:哈哈,不错呦!确实没什么意义。若是只要对age列进行统计,还能够这样写代码学习
1data.age.describe()
执行后,直接在输出窗口中能够查看结果。code
1count 59101.000000 2mean 27.228862 3std 5.389559 4min 3.000000 525% 24.000000 650% 26.000000 775% 29.000000 8max 87.000000
若是仅仅须要统计某个指标,能够这样写blog
1# 统计用户数 2data.id.count()
统计结果:59101数据分析
1# 平均年龄 2data.age.mean()
统计结果:27.228862pandas
1# 年龄最大值 2data.age.max()
统计结果:87it
1# 年龄最小值 2data.age.min()
统计结果:3class
1# 年龄方差 2data.age.var()
统计结果:29.04735
1# 年龄标准差 2data.age.std()
统计结果:5.389559
小白:好的。
Mr.林:今天就到这,下次咱们继续学习其余操做,小白你回去要多多练习,多敲代码。
长按识别下方二维码,并关注公众号
回复“DR”获取案例数据