爬虫学习笔记

1.判断要爬取的页面是html结构仍是json结构,就用检查里找到的节点属性名,去源代码里面搜索。查看网页源代码,若是是有清楚html标签的则为html结构,如:html

clipboard.png

而若是是这样的,则为json,如:
clipboard.pngjson

html结合直接使用网页标题做为url,使用html = etree.HTML(res.text)来整理页面结构;
而若是是json的话,则须要到「检查」-「NetWork」里面找到对应的加载页面,使用加载页面对应的连接做为url,而后使用json_data = json.loads(res.text)整理页面结构。url

相关文章
相关标签/搜索