如何知道一个网站是动态加载的数据? 用火狐或者谷歌浏览器 打开你网页,右键查看页面源代码,ctrl +F 查询输入内容,源代码里面并无这个值,说明是动态加载数据。javascript
序号 | 框架名称 | 描述 | 官网 |
---|---|---|---|
1 | Scrapy | Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 能够应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。用这个框架能够轻松爬下来如亚马逊商品信息之类的数据。 | scrapy.org/ |
2 | PySpider | pyspider 是一个用python实现的功能强大的网络爬虫系统,能在浏览器界面上进行脚本的编写,功能的调度和爬取结果的实时查看,后端使用经常使用的数据库进行爬取结果的存储,还能定时设置任务与任务优先级等。 | github.com/binux/pyspi… |
3 | Crawley | Crawley能够高速爬取对应网站的内容,支持关系和非关系数据库,数据能够导出为JSON、XML等。 | project.crawley-cloud.com/ |
4 | Portia | Portia是一个开源可视化爬虫工具,可以让您在不须要任何编程知识的状况下爬取网站!简单地注释您感兴趣的页面,Portia将建立一个蜘蛛来从相似的页面提取数据。 | github.com/scrapinghub… |
5 | Newspaper | Newspaper能够用来提取新闻、文章和内容分析。使用多线程,支持10多种语言等。 | github.com/codelucas/n… |
6 | Beautiful Soup | Beautiful Soup 是一个能够从HTML或XML文件中提取数据的Python库.它可以经过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工做时间 | www.crummy.com/software/Be… |
7 | Grab | Grab是一个用于构建Web刮板的Python框架。借助Grab,您能够构建各类复杂的网页抓取工具,从简单的5行脚本处处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容,例如与HTML文档的DOM树进行交互。 | docs.grablib.org/en/latest/#… |
8 | Cola | Cola是一个分布式的爬虫框架,对于用户来讲,只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。 | 没找着~ |
9 | 不少 | 看本身积累 | 多百度 |
采起可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不一样的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,经过管道的方式存入数据库。java
基于 twisted 框架,运行中的 exception 是不会干掉 reactor,而且异步框架出错后是不会停掉其余任务的,数据出错后难以察觉。python
scrapy 是封装起来的框架,他包含了下载器,解析器,日志及异常处理,基于多线程, twisted 的方式处理,对于固定单个网站的爬取开发,有优点,可是对于多网站爬取,并发及分布式处理方面,不够灵活,不便调整与括展。react
request 是一个 HTTP 库, 它只是用来,进行请求,对于 HTTP 请求,他是一个强大的库,下载,解析所有本身处理,灵活性更高,高并发与分布式部署也很是灵活,对于功能能够更好实现。c++
她专科学历 27岁从零开始学习c,c++,python编程语言 29岁编写百例教程 30岁掌握10种编程语言, 用自学的经历告诉你,学编程就找梦想橡皮擦git
欢迎关注她的公众号,非本科程序员程序员