利用Python进行数据分析(2) 尝试处理一份JSON数据并生成条形图

时间 2019-11-06

标签利用 python 进行数据分析尝试处理一份 json 生成条形图栏目 Python 繁體版

原文原文链接

1、JSON 数据准备

首先准备一份 JSON 数据，这份数据共有 3560 条内容，每条内容结构以下：

本示例主要是以 tz（timezone 时区）这一字段的值，分析这份数据里时区的分布状况。

2、将 JSON 数据转换成 Python 字典

代码以下：

3、统计 tz 值分布状况，以“时区:总数”的形式生成统计结果

要想达到这一目的，须要先将 records 转换成 DataFrame，DataFrame 是 Pandas 里最重要的数据结构，它能够将数据以表格的形式表示；而后用 value_counts() 方法汇总：

4、根据统计结果生成条形图

生成条形图以前，为了数据的完整，能够给结果中缺失的时区添加一个值（这里用Missing表示），而每条时区内容里缺失的值也须要添加一个未知的值（这里用Unknown表示）：

而后使用 plot() 方法既可生成条形图：

到这里就是一个完整的处理 JSON 数据生成统计结果和条形图的例子；不过还能够对这份统计结果进行进一步的处理，以获得更加详细的结果。

每条数据里还有一个 agent 值，即浏览器的 USER_AGENT 信息，经过这一信息能够得知所使用的操做系统，因此对上一步生成的统计结果还能够按操做系统的不一样加以区分。

agent 值：

5、将条形图以操做系统（Windows/非Windows）加以区分

不是全部的数据都有 a 这个字段，首先过滤掉没有 agent 值的数据；而后根据时区和操做系统列表对数据分组，而后对分组结果进行计数：

最后选择出现次数最多的10个时区的数据生成一张条形图：

这样就获得了以不一样操做系统加以区分的条形图统计结果：