学习笔记数据分析实战-bitly data

时间 2019-11-08

标签学习笔记数据分析实战 bitly data 繁體版

原文原文链接

2011年，URL缩短服务Bitly跟美国政府网站USA.gov合做，提供了一份从生成.gov 或.mil短连接的用户那里收集来的匿名数据。在2011年，除实时数据以外，还能够下载文本文件形式的每小时快照。
python

数据下载地址：git

github.com/d1m0n172/GG…【example.txt（文件名）】github

不知道怎么让编辑器读取数据的小伙伴建议首页看一下以前写的的文章json

首先咱们先把数据导入进行分析

from numpy.random import randn 
import numpy as np
import os 
import matplotlib.pyplot as plt 
import pandas as pd

path = 'example.txt'#经过path读取数据

open(path).readline()#读取文件第一行数据复制代码

import json 
path = 'example.txt'
records = [json.loads(line) for line in open(path)]
#loads以前在numpy里面是读取的函数
#如今recoeds对象就成为一组python字典了

records[0]#查看数组中的值
records[1]
复制代码

假设咱们想分析数据里面的时区（tz字段）想从里面提取什么信息

import pandas as pd #先调用pandas
frame = pd.DataFrame(records)#从原始集合建立数据帧（dataframe）
#将records数组里面的值传递给frame
frame.info()#使用info查看frame函数的基础数据特性信息复制代码

tz_counts = frame['tz'].value_counts()#赋值给计时器
#pandas 的value_counts()函数能够对Series里面的每一个值进行计数而且排序
tz_counts[:10]#切片复制代码

clean_tz = frame['tz'].fillna('Missing')
clean_tz[clean_tz == ''] = 'Unknown'
tz_counts = clean_tz.value_counts()
tz_counts[:10]
#对数据里面的缺失值进行重构
#fillna函数能够替换缺失值（NA），而未知值（空字符串）则能够 经过布尔型数组索引加以替换复制代码

#用matplotlib可视化这个数据
import seaborn as sns #用seaborn包建立水平柱状图
subset = tz_counts[:10]
sns.barplot(y=subset.index, x=subset.values)复制代码

经过数据分析得出结论时区美国/纽约的用户是最多的数组