一看就明白的爬虫入门讲解:基础理论篇

我们的目的是什么 内容从何而来 了解网络请求 一些常见的限制方式 尝试解决问题的思路 效率问题的取舍 一、我们的目的是什么 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 1. 关于非结构化的数据 1.1 HTML文本(包含JavaScript代码) HTML文本基本上是传统爬虫过程中最常见的,也就是大多数时候会遇到
相关文章
相关标签/搜索