输入facebook的URL按下回车后究竟发生了什么


做为一名软件开发或是网络技术人员,你应该对Web应用程序的运行原理和协议交换,以及涉及到的技术:如浏览器、HTTP、HTML、Web服务器和请求处理程序等都有所了解才行。在这篇文章中,咱们将深刻探讨你访问某个URL时发生的一系列事情。php

一、你在浏览器中输入某个URLhtml

咱们从这里开始:ajax

图 1

图 1数据库

二、浏览器查找该域名对应的IP地址编程

图 2

图 2浏览器

第一步是找出所访问域名对应的IP地址,按如下顺序循环查找DNS记录:缓存

◆浏览器缓存 - 浏览器会缓存DNS记录一段时间,有趣的是,操做系统不会告诉浏览器每条DNS记录的存活时间,浏览器按照固定的周期进行缓存(每种浏览器的保留时间从2-30分钟长度不定)。安全

◆操做系统缓存 - 若是浏览器缓存中没有要找的记录,浏览器会产生一个系统调用(在Windows中是gethostbyname),操做系统有它本身的缓存。服务器

◆路由器缓存 - 请求继续来到你的路由器,路由器一般也有本身的DNS缓存。cookie

◆ISP DNS缓存 - 下一步要检查的是ISP的DNS服务器,固然也是有缓存的。

◆递归查找 - ISP的DNS服务器开始一个递归查找,从根域服务器开始,到.com顶级域名服务器,再到Facebook的域名服务器,正常状况下,DNS服务器将会缓存.com域名服务器的名字,所以不必定须要访问根域服务器。

下面是一个递归DNS查找过程示意图:

图 3

图 3

关于DNS一个使人担忧的问题是,整个域名如wikipedia.org或facebook.com只映射到单个IP地址,幸运的是,有许多方法来消除这个问题。

◆循环DNS :DNS查找返回多个IP地址,例如,facebook.com真实状况是映射到了4个IP地址。

◆负载均衡: 由专用硬件监听一个特定IP地址,而后将请求转发给其它服务器,大型网站通常都使用了昂贵的高性能负载均衡设备。

◆基于地理位置的DNS: 将域名映射到不一样地理位置的IP地址提升扩展性,对于托管静态内容的服务器布局来讲,这个方法颇有用,不一样服务器之间不须要相互同步状态。

◆Anycast(任播): 它是一种路由技术,单个IP地址能够映射到多台物理服务器,遗憾的是,任播对TCP不友好,在实际中不多使用。

大多数DNS服务器自己使用任播实现高可用和DNS查找的低延迟。

三、浏览器向Web服务器发送一个HTTP请求

图 4

图 4

Facebook的主页是不会直接从浏览器缓存提取的,由于动态页面要么很快(或当即)过时,所以浏览器将向Facebook服务器发送一条请求:

GET http://facebook.com/ HTTP/1.1
Accept: application/x-ms-application, image/jpeg, application/xaml+xml, [...]
User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; [...]
Accept-Encoding: gzip, deflate
Connection: Keep-Alive
Host: facebook.com
Cookie: datr=1265876274-[...]; locale=en_US; lsd=WW[...]; c_user=2101[...]

GET请求的URL是"http://facebook.com/",浏览器经过User-Agent消息头标识本身,并声明可接受的响应类型(Accept和Accept-Encoding消息头),Connection消息头要求服务器保持TCP链接打开,以便处理下一步请求。

请求包含了浏览器对该域名的cookie,你可能已经知道,cookie是key-value成对出现的,它能够跟踪不一样页面请求之间网站的状态,所以cookie保存了登陆的用户名,服务器会给用户分配一段密码数字,cookie在客户端上实际是一个文本文件,它会跟随每一个请求发给服务器。

有许多工具能够查看原始HTTP请求和对应的响应,我最喜欢的是fiddler,也许你想说的是FireBug,没错,工具不少,就看我的喜爱了,这些工具都能帮助你优化网站。

除了GET请求外,你可能还熟悉另外一种类型的请求- POST请求,它一般用于提交表单,GET请求经过URL发送它的参数(如http://robozzle.com/puzzle.aspx?id=85),POST请求在请求主体中发送它的参数。

在URL"http://facebook.com/"中的斜线很是重要,在这里,浏览器能够安全地添加斜线,对于"http://example.com/folderOrFile"这种格式的URL,浏览器不能自动添加一个斜线,由于尚不清楚folderOrFile是一个文件夹仍是一个文件,在这种状况下,浏览器不会擅自添加斜线,服务器将会以重定向做为响应,致使没必要要的来回通讯。

四、Facebook服务器以一个永久重定向响应

图 5

图 5

下面是Facebook服务器向浏览器请求发回的响应:

HTTP/1.1 301 Moved Permanently
Cache-Control: private, no-store, no-cache, must-revalidate, post-check=0,
      pre-check=0
Expires: Sat, 01 Jan 2000 00:00:00 GMT
Location: P3P: CP="DSP LAW"
Pragma: no-cache
Set-Cookie: made_write_conn=deleted; expires=Thu, 12-Feb-2009 05:09:50 GMT;
      path=/; domain=.facebook.com; httponly
Content-Type: text/html; charset=utf-8
X-Cnection: close
Date: Fri, 12 Feb 2010 05:09:51 GMT
Content-Length: 0

服务器以301永久移走响应告诉浏览器应转到"http://www.facebook.com/"而不是"http://facebook.com/"。

你可能会问,为何服务器要坚持用重定向进行响应呢?为何不用用户想看的网页进行响应呢?

一个缘由是搜索引擎排名,若是相同网页有两个URL,如http://www.igoro.com/http://igoro.com/,搜索引擎会将他俩看做是两个不一样的网站,分摊到每一个URL的入站链接就要少得多,从而下降了网站的排名,搜索引擎理解永久重定向(301),将会把来自这两个源的入站链接合并成一个排名。

一样,相同内容对应的URL太多也利于缓存,若是某段内容有多个名字,在缓存中可能也会出现屡次。

五、浏览器跟随重定向

图 6

图 6

浏览器如今知道"http://www.facebook.com/"才是正确的URL,因而发出第二个GET请求。

GET http://www.facebook.com/ HTTP/1.1
Accept: application/x-ms-application, image/jpeg, application/xaml+xml, [...]
Accept-Language: en-US
User-Agent: Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; [...]
Accept-Encoding: gzip, deflate
Connection: Keep-Alive
Cookie: lsd=XW[...]; c_user=21[...]; x-referer=[...]
Host:

消息头和第一个请求的含义同样,就再也不啰嗦了。

六、服务器处理请求

图 7

图 7

服务器将会收到GET请求并进行处理,而后发回响应,看起来是一个很是简单的操做,但实际上在这个期间发生了许多有趣的事情。

◆Web服务器软件

Web服务器软件(如IIS或Apache)收到HTTP请求后,当即肯定由哪一个请求处理程序来处理这个请求,请求处理程序读取请求,生成HTML。

举一个最简单的例子,请求处理程序能够保存在一个文件中,其结构和URL结构彻底对应,如http://example.com/folder1/page1.aspx URL映射到文件/httpdocs/folder1/page1.aspx,Web服务器软件也能够配置,将URL手工映射到请求处理程序,所以page1.aspx的公共URL应该是http://example.com/folder1/page1

◆请求处理程序

请求处理程序读取请求,它的参数和cookie,它可能会读取和更新服务器上的某些数据,而后生成一个HTML页面做为响应。

每一个动态网站面临的一个有趣的困难是如何保存数据,小网站一般只有一个SQL数据库来保存数据,但大型网站必须将数据库部署到多台服务器上,解决办法包括水平分区(根据主键,将一张表拆分到多个数据库),复制和使用简化数据库(不追求一致性)。

保持数据廉价更新的一个技术是使用批处理做业,例如,Facebook会及时更新新闻消息源,但"你可能知道"功能可能只须要每晚进行更新(我猜的,我也不知道真实状况如何),批处理做业更新会产生一些过期的不重要的数据,但它使数据更新更快,更简单。

七、服务器发回HTML响应

图 8

图 8

下面是服务器生成并发回的一个响应:

HTTP/1.1 200 OK
Cache-Control: private, no-store, no-cache, must-revalidate, post-check=0,
    pre-check=0
Expires: Sat, 01 Jan 2000 00:00:00 GMT
P3P: CP="DSP LAW"
Pragma: no-cache
Content-Encoding: gzip
Content-Type: text/html; charset=utf-8
X-Cnection: close
Transfer-Encoding: chunked
Date: Fri, 12 Feb 2010 09:05:55 GMT

2b3????????T?n?@????[...]
The entire response is 36 kB, the bulk of them in the byte blob at the end that I trimmed.
The Content-Encoding header tells the browser that the response body is compressed using the gzip algorithm.

After decompressing the blob, you'll see the HTML you'd expect:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"  
      "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"
      id="facebook" class=" no_js">
<head>
<meta http-equiv="Content-type" content="text/html; charset=utf-8" />
<meta http-equiv="Content-language" content="en" />
...

除了压缩外,消息头指定是否以及如何缓存页面,cookie设置(在这个响应中没有),隐私信息等等。

注意消息头中的Content-Typt设置成text/html了,它告诉浏览器以HTML呈现响应的内容,而不是做为一个文件下载,浏览器经过消息头决定如何解释响应的内容,但也会考虑其余因素,如URL扩展。

八、浏览器开始渲染HTML

在浏览器未接收完整个HTML文档以前,它就开始渲染了。

图 9

图 9

九、浏览器发送嵌入到HTML中的对象请求

图 10

图 10

在浏览器渲染HTML时,它会发现还须要访问其它URL,浏览器继续为这些资源发出GET请求,下面是我访问facebook.com时进一步访问的一些URL:

◆图像
…
◆CSS样式表
…
◆JavaScript文件
…

每一个URL都会经历访问HTML页面相似的过程,所以,浏览器会在DNS中查找域名,发送请求,跟随重定向等。

但静态文件 - 和动态页面不同 - 容许浏览器缓存,有些文件在下一次访问时可直接从浏览器缓存中提取,不用联系服务器,浏览器知道某个特定文件的缓存有效期,由于第一次从服务器返回到浏览器时就包含了Expires头信息,此外,每一个响应可能也包含一个相似版本号的ETag头,若是浏览器看到一个ETag,它会当即中止传输文件。

你能猜到URL中的fbcdn.net表明什么吗?没错,它表示Facebook内容交付网络,Facebook使用内容交付网络(CDN)分发静态内容 - 图像,样式表和JavaScript文件,所以,文件将被复制到全球许多服务器上。

静态内容一般会占用网站的大量带宽,但也很容易被复制到CDN网络中的加速节点,通常状况下,网站会使用第三方CDN提供商,而不是本身运营CDN,例如,Facebook的静态文件由世界最大的CDN提供商Akamai托管。

咱们仍是举一个例子,当你ping static.ak.fbcdn.net时,你会从akamai.net服务器获得一个应答,一样,若是你分屡次ping URL,可能会从不一样的服务器获得应答,这说明背后的负载均衡正在发生做用。

十、浏览器进一步发送异步(Ajax)请求

图 11

图 11

根据Web 2.0的精神,即便页面渲染完毕后,客户端也要继续和服务器通讯。

例如,Facebook chat会持续更新你的朋友列表(他们登陆和退出都会很快反馈给你),在你浏览器中执行的JavaScript向服务器发送一个异步请求,异步请求是经过编程实现的指向特定URL的GET或POST请求,仍是以Facebook为例,客户端向http://www.facebook.com/ajax/chat/buddy_list.php发送一个POST请求,获取你的在线朋友列表。

这种模式有时指的是Ajax,Ajax表示异步JavaScript和XML,但服务器不必定非要以XML格式进行响应,例如,Facebook返回JavaScript代码片断响应异步请求。

Fiddler工具容许你查看浏览器发送的异步请求,实际上,你不但能够观察请求,并且还能够修改这些请求并进行重发,所以能够轻松欺骗Ajax请求,许多在线游戏的开发人员也所以而郁闷不已。

Facebook chat提供了一个有趣的Ajax问题示例:将数据从服务器推向客户端。由于HTTP是一个请求-响应协议,聊天服务器不能将新消息推送给客户端,相反,客户端必须每隔几秒从服务器去取数据,以了解是否有新消息到达。

长轮询在这种情景中对下降服务器负载颇有用,轮询时若是服务器没有任何新消息,它就不发回应答,同时,若是该客户端有新消息到达,服务器会发现未完成的请求,并返回消息做为响应。

原文出处:http://igoro.com/archive/what-really-happens-when-you-navigate-to-a-url/

原文名:What really happens when you navigate to a URL

做者:Igor Ostrovsky

相关文章
相关标签/搜索