Python爬取知乎单个问题下的回答

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具备任何商业用途,版权归原做者全部,若有问题请及时联系咱们以做处理。json

做者: 努力学习的渣渣哦浏览器

PS:若有须要Python学习资料的小伙伴能够加点击下方连接自行获取网络

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef学习

步骤:网站

  1. 打开须要获取的问题,F12,找到回答的想要数据的API,就是jsonurl

  2. 由于知乎下拉知乎页面,上方的url不会变化,动态加载的网站咱们通常使用抓包,拼接urlspa

  3. 完善程序orm

一. 选题:【如何看待上海新推行的垃圾分类办法?】blog

在这里插入图片描述

二. 【F12】——【寻找含有文本数据的URL】图片

  1. 如图:依次点开【Network】——【XHR】,咱们找到【ansers?include=data%.........】,点开【preview】看到里面的【data】数据,点开就是咱们须要的回答信息。 在这里插入图片描述

  2. 点到【Header】——【Request URL】,打开该网址。(建议用火狐浏览器打开,json格式比较规范),找到这个就跟【获取微博】的方法同样了,只须要读取json文件里面的内容就行了。 在这里插入图片描述

  3. 【拼接url】 多找几个,发现只有后面offset不同。【topics&limit=5&offset=10&platform=desktop&sort_by=default】 url = 'xxxxxx.topics&offset={}&limit=20&sort_by=created'.format((i-1)*20)' 在这里插入图片描述

  4. 三. 输出结果

  5. 先输出 json,看看有没有获取到

在这里插入图片描述

2 . 完整输出

在这里插入图片描述

结束:此处我只获取了【回答的内容】,json里面包含不少信息,如评论时间、昵称等这些,有须要的按照上述方法获取就能够了

相关文章
相关标签/搜索