又面试了Python爬虫工程师，碰到这么几道面试题，Python面试题No9

时间 2019-11-16

原文原文链接

第1题：动态加载又对及时性要求很高怎么处理？

如何知道一个网站是动态加载的数据？用火狐或者谷歌浏览器打开你网页，右键查看页面源代码，ctrl +F 查询输入内容，源代码里面并无这个值，说明是动态加载数据。javascript

Selenium+Phantomjs
尽可能不使用 sleep 而使用 WebDriverWait

第2题：python 爬虫有哪些经常使用框架？

序号	框架名称	描述	官网
1	Scrapy	Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。能够应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。用这个框架能够轻松爬下来如亚马逊商品信息之类的数据。	scrapy.org/
2	PySpider	pyspider 是一个用python实现的功能强大的网络爬虫系统，能在浏览器界面上进行脚本的编写，功能的调度和爬取结果的实时查看，后端使用经常使用的数据库进行爬取结果的存储，还能定时设置任务与任务优先级等。	github.com/binux/pyspi…
3	Crawley	Crawley能够高速爬取对应网站的内容，支持关系和非关系数据库，数据能够导出为JSON、XML等。	project.crawley-cloud.com/
4	Portia	Portia是一个开源可视化爬虫工具，可以让您在不须要任何编程知识的状况下爬取网站！简单地注释您感兴趣的页面，Portia将建立一个蜘蛛来从相似的页面提取数据。	github.com/scrapinghub…
5	Newspaper	Newspaper能够用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。	github.com/codelucas/n…
6	Beautiful Soup	Beautiful Soup 是一个能够从HTML或XML文件中提取数据的Python库.它可以经过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工做时间	www.crummy.com/software/Be…
7	Grab	Grab是一个用于构建Web刮板的Python框架。借助Grab，您能够构建各类复杂的网页抓取工具，从简单的5行脚本处处理数百万个网页的复杂异步网站抓取工具。Grab提供一个API用于执行网络请求和处理接收到的内容，例如与HTML文档的DOM树进行交互。	docs.grablib.org/en/latest/#…
8	Cola	Cola是一个分布式的爬虫框架，对于用户来讲，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。	没找着~
9	不少	看本身积累	多百度

第3题： Scrapy 的优缺点?

优势：scrapy 是异步的

采起可读性更强的 xpath 代替正则强大的统计和 log 系统，同时在不一样的 url 上爬行支持 shell 方式，方便独立调试写 middleware,方便写一些统一的过滤器，经过管道的方式存入数据库。java

缺点：基于 python 的爬虫框架，扩展性比较差

基于 twisted 框架，运行中的 exception 是不会干掉 reactor，而且异步框架出错后是不会停掉其余任务的，数据出错后难以察觉。python

第4题： scrapy 和 request?

scrapy 是封装起来的框架，他包含了下载器，解析器，日志及异常处理，基于多线程， twisted 的方式处理，对于固定单个网站的爬取开发，有优点，可是对于多网站爬取，并发及分布式处理方面，不够灵活，不便调整与括展。react
request 是一个 HTTP 库，它只是用来，进行请求，对于 HTTP 请求，他是一个强大的库，下载，解析所有本身处理，灵活性更高，高并发与分布式部署也很是灵活，对于功能能够更好实现。c++

第5题：描述下 scrapy 框架运行的机制？

从 start_urls 里获取第一批 url 并发送请求，请求由引擎交给调度器入请求队列，获取完毕后，调度器将请求队列里的请求交给下载器去获取请求对应的响应资源，并将响应交给本身编写的解析方法作提取处理，若是提取出须要的数据，则交给管道文件处理；
若是提取出 url，则继续执行以前的步骤（发送 url 请求，并由引擎将请求交给调度器入队列…)，直到请求队列里没有请求，程序结束。

第6题：实现模拟登陆的方式有哪些？

使用一个具备登陆状态的 cookie，结合请求报头一块儿发送，能够直接发送 get 请求，访问登陆后才能访问的页面。
先发送登陆界面的 get 请求，在登陆页面 HTML 里获取登陆须要的数据（若是须要的话），而后结合帐户密码，再发送 post 请求，便可登陆成功。而后根据获取的 cookie信息，继续访问以后的页面。

第7题：你遇到过的反爬虫的策略？

BAN IP
BAN USERAGENT
BAN COOKIES
验证码验证
javascript渲染
ajax异步传输
等.......

后续面试问题

你经常使用的反反爬虫的方案？
你用过多线程和异步吗？除此以外你还用过什么方法来提升爬虫效率？
有没有作过增量式抓取？
对Python爬虫框架是否有了解？

她专科学历 27岁从零开始学习c，c++，python编程语言 29岁编写百例教程 30岁掌握10种编程语言，用自学的经历告诉你，学编程就找梦想橡皮擦git

欢迎关注她的公众号，非本科程序员程序员