PS:需安装好Python开发环境,前提教程:Python3的安装(Windows),此外,个人编辑器是pycharm,并且,须要学习一些简单的python和HTML基础。html
0x01 爬虫博客网页跳转:旷课小王子的博客园
打开网页,右击,选择 检查
(谷歌浏览器)/按 F12:python
#!/usr/bin/env python # -*- coding:utf-8 -*- from urllib import request from pyquery import PyQuery as pq import json # 定义须要解析的url url = 'https://www.cnblogs.com/kkxwz/default.html' # 获取每一个item信息并返回 def parse_item(i, e): doc = pq(e) title = doc('.postTitle2').text() titleLink = doc('.postTitle2').attr('href') postFoot = doc('.postfoot').text() summary = doc('.c_b_p_desc').text() result = { 'title': title, 'titleLink': titleLink, 'postFoot': postFoot, 'summary': summary } print(json.dumps(result)) return result # 获取url的内容 with request.urlopen(url) as response: body = response.read() doc = pq(body) items = doc('#main>.post').map(parse_item) #1.定义一个空数组,用于储存提取的结果 with open('kkblog.json', 'wt', encoding="utf-8") as f: # 2.将结果写入JSON文件 f.write(json.dumps(items, ensure_ascii=False))
a. 须要先安装pyQuery依赖(此步骤为后补上,可忽略截图颜色)json
a. 执行,而后查看查看执行结果
b. 复制到Json数据在线解析界面查看(点击跳转在线解析Json数据)数组
一、居然要爬取网站的内容,应该先清楚爬的是哪里的,因此必需要知道URL。
二、而后,应该清楚网页的内容结构,了解到什么内容对应哪一个标签,咱们能够先写好,或者把获取URL内容的步骤完成再回来填充,最好是回头再填充。
三、最后获取URL的内容,分析咱们要爬取的标签范围,肯定是想获取网页里面的哪些信息,而后再遍历出来便可。浏览器
做者简介:邵奈一
全栈工程师、市场洞察者、专栏编辑
| 公众号 | 微信 | 微博 | CSDN | 简书 |微信
福利:
邵奈一的技术博客导航
邵奈一 原创不易,如转载请标明出处。markdown