智能web网页爬虫原理，不用写一行代码

时间 2019-11-07

标签智能 web 网页爬虫原理不用一行代码栏目 HTML 繁體版

原文原文链接

列表页解析

列表定位

同性质子元素排序
元素面积排序
用户确认区域后元素xpath并存储

分页按钮定位

不包含子元素且文字包含“下一页，点击查看更多”等文字的标签。
调用dom.click()方法自动进入下一页，或者提取连接，存储xpath

列表项解析

标题解析：列表项中字体权重最大的标签为标题。用户确认后存储xpath。
详情连接提取：标题往上找到a标签。解析后存储xpath
封面解析：列表项中面积最大的图片。存储xpath

详情页解析

内容识别

标题：标题使用列表项的标题便可。
详情：文本类子元素最多的元素，且页面面积占用最大。存储xpath。
时间解析：正则匹配时间便可，匹配到以后尝试缓存xpath。
来源解析：正则匹配便可，同上。

后处理

详情：但愿保留详情的一些排版，好比代码块，高亮区域等。将HTML转为Markdown便可。在使用时转回HTML显示。
时间：使用dateparser将时间转为ISO8601标准时间或者时间戳便可。
存储：建议存储至MongoDB，无需提早定义表结构。

上述方案兼容90%的标准网站，好比拉钩，京东，segmentfault，v2ex，58同城等等。

DEMO已经开发完毕，交流讨论或者商业合做请发站内信。segmentfault

相关文章

相关标签/搜索

用Python写网络爬虫

爬虫－反爬虫

原理+Java代码

第一行代码

web爬虫大纲

Web Services 教程

网站品质教程

代码格式化

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<