到如今为止,咱们的淘宝教程已经写到了第四篇,前三篇分别是:git
今天,咱们来看看淘宝系列的第四篇github
咱们在上一篇的时候已经将淘宝数据爬取下来了,可是并无作数据分析。因此今天这篇文章就是教你们如何去分析数据,得出一些有用的结论!微信
Python语言相比其余语言的优点在哪里?猪哥认为是数据分析和人工智能这两大块,并且这两个方向需求会慢慢增大,因此那些想学习Python殊不知道要朝着哪一个目标学习的同窗能够考虑往这两个方向发展!cookie
数据分析以前咱们须要清楚的知道本身想要分析什么东西,也就是先搞清楚咱们的目标。在公司多是公司财报、用户增量变化、产品受欢迎程度、一些报表等等。echarts
那咱们今天的目标有哪些呢?咱们来看看:学习
注意: 以上数据分析所有基于上次爬取的2500款淘宝商品(默认排序),并不表明淘宝全部避孕套商品!人工智能
有了明确的目标以后,咱们就要开始技术选型。.net
首先数据处理的库这个很好肯定,基本就是numpy和pandas这两个必备的库,因此你们首先确保已经安装了这两个库。3d
而后数据可视化库呢?这么多可视化库该怎么选?若是你不知道怎么选,那猪哥给你推荐:pyecharts 这个由中国人开发的可视化库,想要什么类型的图在下面文档里面找就行。excel
中文文档:pyecharts.org/#/zh-cn/int… 源码地址:github.com/pyecharts/p…
最后技术选型完毕,咱们就能够开始正式的敲代码分析了。(分析的标题将和上面的分析目标一一对应)
在咱们数据分析以前,咱们须要对数据进行清洗。由于从淘宝爬取下来的数据并非标准的数据,好比:商品销量,爬取下来的数据是:2.5万 人付款,咱们须要将它转为:25000(整型),这样才方面后面的处理!
咱们先来看看从淘宝爬取的原始数据,看看那些数据须要清洗
数据清洗完毕以后,咱们就能够开始分析了。
分析标题高频关键字这都是老生常谈的一个流程,也就是使用jieba分词,而后统计词频,最后生成一个词云图,我相信常常看猪哥公众号的同窗看都看腻了吧,这种小功能闭着眼睛都会了。
ps:别问猪哥最中意哪一个词,问就是延时。
上面咱们只看到大概哪些功能受欢迎,若是须要看具体的数据怎么办呢?
咱们就来统计一下包含这些高频关键词的商品数据数量吧,代码讲解在图片下方,下同!
ps:猪哥有个疑问想请教各位老司机:这个 免洗 是咋玩的?
这个分析有意思了,就至关于用户更喜欢哪一种功能或者材质的套套。
ps:有不少同窗问:为何不是超薄?超薄本身是爽了,可女友呢?
分析完你们喜欢的功能,再来分析下这些功能的价格如何?哪些功能的避孕套比较贵呢?
ps:相似凝胶、透明质、免洗的哪位老司机用过,和通常的有啥区别?
商品的标题和功能差很少分析完了,咱们来分析下价格吧!
ps:没想到还有这么多超过100块的,我想问下200块价格的套套是啥感受?
分析完价格固然是分析销量区间了
ps:想知道那款超过10万销量的避孕套商品信息吗?关注猪哥微信公众号「裸睡的猪」回复:爆款套套,便可查看!
假如你是一个避孕套卖家,新推出一款避孕套,你想知道价格定为多少销量才会比较高呢?
这时候咱们就能够经过分析价格与商品的销量关系,用实际的数据来订价,这也正是数据分析的价值之一。
ps:谁用过10之内一盒的套套,出来走走
标题、价格、销量都分析过了,最后咱们还分析下商家位置的数据。
分析的目标是统计全国各省避孕套商家数量,而后作成热力图和柱状图。
ps:贵州四周都有卖套套的,为什么就它没有?难道和地理有关?
分析完商家数后,咱们来看看各省的平均销量吧。
分析结论:
ps:为什么山西平均销量是第一?缘由是啥真想不通
经过上面的数据分析,咱们获得了一些有趣的结论:
经过上述分析结果,若是猪哥做为一个避孕套商家,想要推出一款产品,设置标题带螺纹、颗粒、狼牙,价格设置在31.9-39元,这样可能会更畅销一些。
数据分析做为一把利刃,能让你看见别人看不见的事物,若是使用得当彻底能够做为你创业的一个重要支点!
最后猪哥再送你一句忠告:想学数据分析,必定要学好pandas!!!
获取源码:关注微信公众号「裸睡的猪」回复:分析套套 便可获取!