上期为你们介绍了requests库的基本信息以及使用requests库爬取某东的商品页,收到了不少同窗的反馈说期待猪哥的更新,猪哥感到很是开心,今天就带你们来玩一把刺激的!前端
在实际开发过程当中,在咱们动手开发以前,都是由产品经理为咱们(测试、前端、后端、项目经理等)先讲解一下需求,咱们了解了需求以后,才开始一块儿来讨论技术方案。 git
咱们经常看到一些有关充气娃娃的表情包和图片或新闻,可是这种东西不多会像一些小视频一些相互交流,你们可能都是偷摸玩耍。因此猪哥相信其实大部分同窗并无亲身体验过充气娃娃究竟是什么感受(包括猪哥),因此猪哥很好奇到底是什么一种体验?真的如传言中那样爽吗? github
基于不少人没有体验过充气娃娃是什么感受,可是又很好奇,因此但愿经过爬虫+数据分析的方式直观而真是的告诉你们(下图为成品图)。 web
为了实现上面的需求以及功能,咱们来讨论下具体的技术实现方案:数据库
上篇文章中就给你们说过,今天咱们以某东商品编号为:1263013576的商品为对象,进行数据分析,咱们来看看详细的技术实现步骤吧!编程
本教程只为学习交流,不得用于商用获利,后果自负! 若有侵权或者对任何公司或我的形成不利影响,请告知删除json
第一步:打开某东的商品页,搜索你想研究的商品。 后端
productPageComments:看这个名字就知道是产品页评论跨域
拿到评论数据接口url以后,咱们就能够开始写代码抓取数据了。通常咱们会先尝试抓取一条数据,成功以后,咱们再去分析如何实现大量抓取。数组
上一篇咱们已经讲解了如何使用requests库发起http/s请求,咱们来看看代码
你们在遇到这种状况时,回到浏览器的调试窗口,查看下浏览器发起的请求头,由于可能浏览器请求时携带了什么请求头参数而咱们代码中没有。
咱们对爬取的数据分析发现,此数据为jsonp跨域请求返回的json结果,因此咱们只要把前面的fetchJSON_comment98vv4646(
和最后的)
去掉就拿到json数据了。
Preview
也能够看到,json数据中有一个key为
comments
的值即是咱们想要的评论数据。
content
字段即是咱们在页面看到的用户评价内容。
content
字段提取并打印出来
数据提取后咱们须要将他们保存起来,通常保存数据的格式主要有:文件、数据库、内存这三大类。今天咱们就将数据保存为txt文件格式,由于操做文件相对简单同时也能知足咱们的后续数据分析的需求。
再完成一页数据爬取、提取、保存以后,咱们来研究一下如何批量抓取?
作过web的同窗可能知道,有一项功能是咱们必需要作的,那即是分页。何为分页?为什么要作分页?
咱们在浏览不少网页的时候经常看到“下一页”这样的字眼,其实这就是使用了分页技术,由于向用户展现数据时不可能把全部的数据一次性展现,因此采用分页技术,一页一页的展现出来。
让咱们再回到最开始的加载评论数据的url:
咱们能够看到连接里面有两个参数page=0&pageSize=10,page表示当前的页数,pageSize表示每页多少条,那这两个数据直接去数据库limit数据。
老司机一眼即可以看出这就是分页的参数,可是有同窗会说:若是我是老司机还干吗看你的文章?因此我教你们如何来找到这个分页参数。
回到某东的商品页,咱们将评价页面拉到最底下,发现有分页的按钮,而后咱们在调试窗口清空以前的请求记录。
Headers
查看第二页请求数据的url
好了,知道分页规律以后,咱们只要在每次请求时将page参数递增不就能够批量抓取了吗?咱们来写代码吧!
爬取完成以后检查成果
数据成功保存以后咱们须要对数据进行分词清洗,对于分词咱们使用著名的分词库jieba。 首先是安装jieba库:
pip3 install jieba
生成云词咱们须要用到numpy
、matplotlib
、wordcloud
、Pillow
这几个库,你们先自行下载。matplotlib
库用于图像处理,wordcloud
库用于生成词云。
注意:font_path是选择字体的路径,若是不设置默认字体可能不支持中文,猪哥选择的是Mac系统自带的宋体字!
最终结果:
因考虑新手的友好性,文章篇幅较长,详细的介绍了从需求到技术分析、爬取数据、清洗数据、最后的分析数据。咱们来总结一下本片文章学到的东西吧:
这是一套完整的数据分析案例,但愿你们能本身动手尝试,去探索更多有趣的案例,作个有趣的人~