第一讲html
什么是爬虫web
网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被普遍用于互联网搜索引擎或其余相似网站,以获取或更新这些网站的内容和检索方式。它们能够自动采集全部其可以访问到的页面内容,以供搜索引擎作进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们须要的信息。浏览器
总结:自动抓取数据缓存
爬虫能作什么安全
爬虫的本质是什么服务器
模仿浏览器打开网页cookie
第二讲:HTTP协议网络
什么是HTTP协议app
超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是互联网上应用最为普遍的一种网络协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。经过HTTP或者HTTPS协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。 HTTP的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(CERN)所发起。由万维网协会(World Wide Web Consortium,W3C)和互联网工程任务组(Internet Engineering Task Force,IETF)制定标准,最终发布了一系列的RFC,其中最著名的是1999年6月公布的 RFC 2616,定义了HTTP协议中现今普遍使用的一个版本——HTTP 1.1。 2014年12月,互联网工程任务组(IETF)的Hypertext Transfer Protocol Bis(httpbis)工做小组将HTTP/2标准提议递交至IESG进行讨论[1],于2015年2月17日被批准。[2] HTTP/2标准于2015年5月以RFC 7540正式发表,替换HTTP 1.1成为HTTP的实现标准。[3]ide
HTTP是一个客户端终端(用户)和服务器端(网站)请求和应答的标准(TCP)。经过使用网页浏览器、网络爬虫或者其它的工具,客户端发起一个HTTP请求到服务器上指定端口(默认端口为80)。咱们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,好比HTML文件和图像。咱们称这个应答服务器为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,好比代理服务器、网关或者隧道(tunnel)。 尽管TCP/IP协议是互联网上最流行的应用,HTTP协议中,并无规定必须使用它或它支持的层。事实上,HTTP能够在任何互联网协议上,或其余网络上实现。HTTP假定其下层协议提供可靠的传输。所以,任何可以提供这种保证的协议均可以被其使用。所以也就是其在TCP/IP协议族使用TCP做为其传输层。 一般,由HTTP客户端发起一个请求,建立一个到服务器指定端口(默认是80端口)的TCP链接。HTTP服务器则在那个端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态,好比"HTTP/1.1 200 OK",以及返回的内容,如请求的文件、错误消息、或者其它信息。
具体例子
打开知乎页面,按浏览器的F12键,点击network,点击doc,而后刷新页面,再点击headers,能够看到以下界面:
其中:
HTTP协议中的统一资源定位符也就是咱们打开的网址
Request URL:https://zhuanlan.zhihu.com/p/25296437 (爬虫会用到)
HTTP协议中的请求方法,咱们此次用的是GET
Request Method:GET #(爬虫会用到)
请求方法有如下这些,经常使用的是GET,POST
对应HTTP协议中的状态码,咱们此次返回的是200 OK、
Status Code:200 OK(爬虫会用到)
状态码的含义:
常见状态代码、状态描述、说明:
请求头
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8(爬虫会用到)
其中
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
用户是经过什么工具来请求的,(由于我用的Google浏览器,因此显示的是Chrome)
If-Modified-Since:Wed, 15 Feb 2017 09:14:13 GMT If-None-Match:W/"58a41be5-190aa" Last-Modified:Wed, 15 Feb 2017 09:14:13 GMT ETag:"58a41be5-190aa"这4个通常静态页面会用到 If-Modified-Since,If-None-Match这两个是请求头,ETag,Last-Modified是返回头(服务器返回的) 若是If-Modified-Since的值和Last-Modified相等 则代表当前请求的内容没有变更,服务器返回Status Code:304 Not Modified