关于Web服务器的认识

       立刻就要毕业了,也要开始找工做了,大学写了这么多代码了,却没有好好总结一下经常使用的概念非常遗憾额,就经过这篇博客记录一下我最经常使用的一些知识好了。html

       说到Web服务器,有不少文章都介绍的很好,以前看到一篇很是不错的,对我帮助很大,惋惜如今找不到原文了,看到博客园有人转载,我就在这里也记一下好了,在此很是感谢做者的分析,受益不浅。web

       那么在说Web服务器以前,先说说线程、进程、以及并发链接数。windows

1.进程与线程浏览器

        进程是具备必定独立功能的程序,关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。从逻辑角度来看,多线程的意义在于一个应用程序(进程)中,有多个执行部分能够同时执行。但操做系统并无将多个线程看作多个独立的应用来实现,而是做为进程来调度和管理以及资源分配。这就是进程和线程的重要区别,进程和线程的主要差异在于,进程有独立的地址空间,一个进程崩溃后,在保护模式下不会对其它进程产生影响,而线程只是一个进程中的不一样执行路径。线程有本身的堆栈和局部变量,但线程之间没有单独的地址空间,一个线程死掉就等于整个进程死掉,因此多进程的程序要比多线程的程序健壮,但在进程切换时,耗费资源较大,效率要差一些。但对于一些要求同时进行而且又要共享某些变量的并发操做,只能用线程,不能用进程。下面咱们来讲一说并发链接数。缓存

2.并发链接数服务器

(1).什么是最大并发链接数呢?网络

         最大并发链接数是服务器同一时间能处理最大会话数量。多线程

(2).何为会话?架构

       咱们打开一个网站就是一个客户端浏览器与服务端的一个会话,而咱们浏览网页是基于http协议。并发

(3).HTTP协议如何工做?

       HTTP支持两种创建链接的方式:非持久链接持久链接(HTTP1.1默认的链接方式为持久链接)。

(4).浏览器与Web服务器之间将完成下列7个步骤

  • 创建TCP链接

  • Web浏览器向Web服务器发送请求命令

  • Web浏览器发送请求头信息

  • Web服务器应答

  • Web服务器发送应答头信息

  • Web服务器向浏览器发送数据

  • Web服务器关闭TCP链接

       通常状况下,一旦Web服务器向浏览器发送了请求数据,它就要关闭TCP链接,可是浏览器通常其头信息加入了这行代码 Connection:keep-alive,TCP链接在发送后将仍然保持打开状态,因而,浏览器能够继续经过相同的链接发送请求。保持链接目的,节省了为每 个请求创建新链接所需的时间,还节约了网络带宽。

3.并发链接数的计算方法

        用户下载服务器上的文件,则为一个链接,用户文件下载完毕后这个链接就消失了。有时候用户用迅雷的多线程方式下载的话,这一个用户开启了5个线程的话,就算是5个链接。

        用户打开你的页面,就算停留在页面没有对服务器发出任何请求,那么在用户打开一面之后的15分钟内也都要算一个在线。

        上面的状况用户继续打开同一个网站的其余页面,那么在线人数按照用户最后一次点击(发出请求)之后的15分钟计算,在这个15分钟内无论用户怎么点击(包括新窗口打开)都仍是一人在线。

         当用户打开页面而后正常关闭浏览器,用户的在线人数也会立刻清除。

2、Web服务器提供服务的方式

       Web服务器因为要同时为多个客户提供服务,就必须使用某种方式来支持这种多任务的服务方式。通常状况下能够有如下三种方式来选择,多进程方式多线程方式异步方式。其中,多进程方式中服务器对一个客户要使用一个进程来提供服务,因为在操做系统中,生成一个进程须要进程内存复制等额外的开销,这样在客户较多时的性能就会下降。为了克服这种生成进程的额外开销,可使用多线程方式或异步方式。在多线程方式中,使用进程中的多个线程提供服务, 因为线程的开销较小,性能就会提升。事实上,不须要任何额外开销的方式仍是异步方式,它使用非阻塞的方式与每一个客户通讯,服务器使用一个进程进行轮询就好了。

       虽然异步方式最为高效,但它也有本身的缺点。由于异步方式下,多个任务之间的调度是由服务器程序自身来完成的,并且一旦一个地方出现问题则整个服务器就会出现问题。所以,向这种服务器增长功能,一方面要听从该服务器自身特定的任务调度方式,另外一方面要确保代码中没有错误存在,这就限制了服务器的功能,使得异步方式的Web服务器的效率最高,但功能简单,如Nginx服务器

       因为多线程方式使用线程进行任务调度,这样服务器的开发因为听从标准,从而变得简单并有利于多人协做。然而多个线程位于同一个进程内,能够访问一样的内存空间,所以存在线程之间的影响,而且申请的内存必须确保申请和释放。对于服务器系统来说,因为它要数天、数月甚至数年连续不停的运转,一点点错误就会逐渐积累而最终致使影响服务器的正常运转,所以很难编写一个高稳定性的多线程服务器程序。可是,不是不能作到时。Apache的worker模块就能很好的支持多线程的方式。

       多进程方式的优点就在于稳定性,由于一个进程退出的时候,操做系统会回收其占用的资源,从而使它不会留下任何垃圾。即使程序中出现错误,因为进程是相互隔离的,那么这个错误不会积累起来,而是随着这个进程的退出而获得清除。Apache的prefork模块就是支持多进程的模块。

3、多进程、多线程、异步模式的对比

     Web服务器总的来讲提供服务的方式有三种,多进程方式,多线程的方式,异步方式。其中效率最高的是异步的方式,最稳定的是多进程方式,占用资源较少的是多线程的方式。

1.多进程

       此种架构方式中,web服务器生成多个进程并行处理多个用户请求,进程能够按需或事先生成。有的web服务器应用程序为每一个用户请求生成一个单独的进程来进行响应,不过,一旦并发请求数量达到成千上万时,多个同时运行的进程将会消耗大量的系统资源。(即每一个进程只能响应一个请求或多个进程对应多个请求)

优势:

  • 最大的优点就在于稳定性,一个进程出错不会影响其它进程。如,服务器同时链接100个请求对就的是100个进程,其中一个进程出错,只会杀死一个进程,还有99个进程继续响应用户请求。每一个进程响应一个请求

缺点:

  • 进程量大,进程切换次数过多,致使CPU资源使用效率低,每一个进程的地址空间是独立的,不少空间中重复的数据,因此内存使用效率低,进程切换因为内核完成,占用CPU资源。

2.多线程

       在多线程方式中,每一个线程来响应一下请求,因为线程之间共享进程的数据,因此线程的开销较小,性能就会提升。

优势:

  • 线程间共享进程数据,每一个线程响应一个请求,线程切换不可避免(切换量级比较轻量),同一进程的线程能够共享进程的诸多资源,对内存的需求较之进程有很大降低,读能够共享,写不能够共享

缺点:

  • 线程快速切换时会带来线程抖动,多线程会致使服务器不稳定

3.异步方式

       一个进程或线程响应多个请求,不须要任何额外开销的,性能最高,占用资源最少。但也有问题一但进程或线程出错就会致使整个服务器的宕机。

4、Web 服务请求过程

20130830100310571

       在上面的讲解中咱们说明,Web服务器的如何提供服务的,有多进程的方式、多线程的方式还有异步方式咱们先简单这么理解,后面咱们慢慢说,如今咱们无论Web服务器是如何提供服务的,多进程也好、多线程好,异步也罢。下面咱们来讲一下,一个客户端的具体请求Web服务的具体过程,从上图中咱们能够看到有11步,下面咱们来具体说一下,

  • 1.首先咱们客户端发送一个请求到Web服务器,请求首先是到网卡。2.网卡将请求交由内核空间的内核处理,其实就是拆包了,发现请求的是80端口。3.内核便将请求发给了在用户空间的Web服务器,Web服务器接受到请求发现客户端请求的index.html页面。4.Web服务器便进行系统调用将请求发给内核。5.内核发如今请求的是一页面,便调用磁盘的驱动程序,链接磁盘。6.内核经过驱动调用磁盘取得的页面文件。7.内核将取得的页面文件保存在本身的缓存区域中便通知Web进程或线程来取相应的页面文件。8.Web服务器经过系统调用将内核缓存中的页面文件复制到进程缓存区域中。9.Web服务器取得页面文件来响应用户,再次经过系统调用将页面文件发给内核。10.内核进程页面文件的封装并经过网卡发送出去。11.当报文到达网卡时经过网络响应给客户端

简单来讲就是:用户请求-->送达到用户空间-->系统调用-->内核空间-->内核到磁盘上读取网页资源->返回到用户空间->响应给用户。上述简单的说明了一下,客户端向Web服务请求过程,在这个过程当中,有两个I/O过程,一个就是客户端请求的网络I/O,另外一个就是Web服务器请求页面的磁盘I/O。 下面咱们就来讲说Linux的I/O模型。

5、Linux I/O 模型

1.I/O模型分类

说明:咱们都知道web服务器的进程响应用户请求,但没法直接操做I/O设备,其必须经过系统调用,请求kernel来协助完成I/O动做,以下图:20130830100310352

      对于数据输入而言,即等待(wait)数据输入至buffer须要时间,而从buffer复制(copy)数据至进程也须要时间  
根据等待模式不一样,I/O动做可分为五种模式。

  • 1.阻塞I/O,2.非阻塞I/O,3.I/O复用(select和poll),4.信号(事件)驱动I/O(SIGIO),5.异步I/O(Posix.1的aio_系列函数)

2.I/O模型的相关术语

(1).阻塞和非阻塞:

       阻塞和非阻塞指的是执行一个操做是等操做结束再返回,仍是立刻返回。好比你去车站接朋友,这是一个操做。能够有两种执行方式。第一种,你这人特实诚,老早就到了车站一直等到车来了接到朋友为止。第二种,你到了车站,问值班的那趟车来了没有,“尚未”,你出去逛一圈,可能过会回来再问。第一种就是阻塞方式,第二种则是非阻塞的。我认为阻塞和非阻塞讲得是作事方法,是针对作事的人而言的。

(2).同步和异步:

       同步和异步又是另一个概念,它是事件自己的一个属性。好比老板让你去搬一堆石头,并且只让你一我的干,你只好本身上阵,最后的结果是搬完了,仍是你砸到脚了,只有搬完了你才知道。这就是同步的事件。若是老板还给你个小弟,你就可让小弟去搬,搬完了告你一声。这就变成异步的了。其实异步还能够分为两种:带通知的和不带通知的。前面说的那种属于带通知的。有些小弟干活可能主动性不是很够,不会主动通知你,你就须要时不时的去关注一下状态。这种就是不带通知的异步。 对于同步的事件,你只能以阻塞的方式去作。而对于异步的事件,阻塞和非阻塞都是能够的。非阻塞又有两种方式:主动查询和被动接收消息。被动不意味着必定很差,在这里它偏偏是效率更高的,由于在主动查询里绝大部分的查询是在作无用功。对于带通知的异步事件,二者皆可。而对于不带通知的,则只能用主动查询。

(3).I/O

       回到I/O,无论是I仍是O,对外设(磁盘)的访问均可以分红请求和执行两个阶段。请求就是看外设的状态信息(好比是否准备好了),执行才是真正的I/O操做。在Linux 2.6以前,只有“请求”是异步事件,2.6以后才引入AIO把“执行”异步化。别看Linux/Unix是用来作服务器的,这点上比Windows落后了好多,IOC(Windows上的AIO)在Win2000上就有了。

(4).总结

      Linux上的前四种I/O模型的“执行”阶段都是同步的,只有最后一种才作到了真正的全异步。第一种阻塞式是最原始的方法,也是最累的办法。固然累与不累要看针对谁。应用程序是和内核打交道的。对应用程序来讲,这种方式是最累的,但对内核来讲这种方式偏偏是最省事的。还拿接人这事为例,你就是应用程序,值班员就是内核,若是你去了一直等着,值班员就省事了。固然如今计算机的设计,包括操做系统,愈来愈为终端用户考虑了,为了让用户满意,内核慢慢的承担起愈来愈多的工做,IO模型的演化也是如此。非阻塞I/O ,I/O复用,信号驱动式I/O其实都是非阻塞的,固然是针对“请求”这个阶段。非阻塞式是主动查询外设状态。I/O复用里的select,poll也是主动查询,不一样的是select和poll能够同时查询多个fd(文件句柄)的状态,另外select有fd个数的限制。epoll是基于回调函数的。信号驱动式I/O则是基于信号消息的。这两个应该能够归到“被动接收消息”那一类中。最后就是伟大的AIO的出现,内核把什么事都干了,对上层应用实现了全异步,性能最好,固然复杂度也最高。

6、Linux I/O 模型具体说明

         首先咱们先来看一下,基本 Linux I/O 模型的简单矩阵,从图中咱们能够看到的模型有,同步阻塞I/O(阻塞I/O)、同步非阻塞I/O(非阻塞I/O )、异步阻塞I/O(I/O复用),异步非阻塞I/O(有两种,信号驱动I/O和异步I/O)。好了如今就来具体说一说吧。

20130830100311898

1.阻塞I/O

说明:应用程序调用一个IO函数,致使应用程序阻塞,等待数据准备好。 若是数据没有准备好,一直等待数据准备好了,从内核拷贝到用户空间,IO函数返回成功指示。这个不用多解释吧,阻塞套接字。下图是它调用过程的图示:(注,通常网络I/O都是阻塞I/O,客户端发出请求,Web服务器进程响应,在进程没有返回页面以前,这个请求会处于一直等待状态)

20130830100312494

2.非阻塞I/O

       咱们把一个套接口设置为非阻塞就是告诉内核,当所请求的I/O操做没法完成时,不要将进程睡眠,而是返回一个错误。这样咱们的I/O操做函数将不断的测试数据是否已经准备好,若是没有准备好,继续测试,直到数据准备好为止。在这个不断测试的过程当中,会大量的占用CPU的时间,全部通常Web服务器都不使用这种I/O模型。具体过程以下图:

20130830100314195

3.I/O复用(select和poll)

        I/O复用模型会用到select或poll函数或epoll函数(Linux2.6之后的内核开始支持),这两个函数也会使进程阻塞,可是和阻塞I/O所不一样的的,这两个函数能够同时阻塞多个I/O操做。并且能够同时对多个读操做,多个写操做的I/O函数进行检测,直到有数据可读或可写时,才真正调用I/O操做函数。具体过程以下图:

20130830100317719

4.信号驱动I/O(SIGIO)

       首先,咱们容许套接口进行信号驱动I/O,并安装一个信号处理函数,进程继续运行并不阻塞。当数据准备好时,进程会收到一个SIGIO信号,能够在信号处理函数中调用I/O操做函数处理数据。具体过程以下图:

20130830100320472

综上能够看出,越日后,阻塞越少,理论上效率也是最优。其五种I/O模型中,前三种属于同步I/O,后二者属于异步I/O。

同步I/O:

  • 1.阻塞I/O,2.非阻塞I/O,3.I/O复用(select和poll)     

异步I/O:

  • 1.信号驱动I/O(SIGIO) (半异步),2.异步I/O(Posix.1的aio_系列函数) (真正的异步)

异步 I/O 和 信号驱动I/O的区别:

  • 信号驱动 I/O 模式下,内核能够复制的时候通知给咱们的应用程序发送SIGIO 消息。异步 I/O 模式下,内核在全部的操做都已经被内核操做结束以后才会通知咱们的应用程序。

7、Linux I/O模型的具体实现

1.主要实现方式有如下几种:

  • select,poll,epoll,kqueue,/dev/poll,iocp

       其中iocp是Windows实现的,select、poll、epoll是Linux实现的,kqueue是FreeBSD实现的,/dev/poll是SUN的Solaris实现的。select、poll对应第3种(I/O复用)模型,iocp对应第5种(异步I/O)模型,那么epoll、kqueue、/dev/poll呢?其实也同select属于同一种模型,只是更高级一些,能够看做有了第4种(信号驱动I/O)模型的某些特性,如callback机制。

2.为何epoll、kqueue、/dev/poll比select高级?

       答案是,他们无轮询。由于他们用callback取代了。想一想看,当套接字比较多的时候,每次select()都要经过遍历FD_SETSIZE个Socket来完成调度,无论哪一个Socket是活跃的,都遍历一遍。这会浪费不少CPU时间。若是能给套接字注册某个回调函数,当他们活跃时,自动完成相关操做,那就避免了轮询,这正是epoll、kqueue、/dev/poll作的。这样子说可能很差理解,那么我说一个现实中的例子,假设你在大学读书,住的宿舍楼有不少间房间,你的朋友要来找你。select版宿管大妈就会带着你的朋友挨个房间去找,直到找到你为止。而epoll版宿管大妈会先记下每位同窗的房间号,你的朋友来时,只需告诉你的朋友你住在哪一个房间便可,不用亲自带着你的朋友满大楼找人。若是来了10000我的,都要找本身住这栋楼的同窗时,select版和epoll版宿管大妈,谁的效率更高,不言自明。同理,在高并发服务器中,轮询I/O是最耗时间的操做之一,select、epoll、/dev/poll的性能谁的性能更高,一样十分明了。

3.Windows or *nix (IOCP or kqueue、epoll、/dev/poll)?

       诚然,Windows的IOCP很是出色,目前不多有支持asynchronous I/O的系统,可是因为其系统自己的局限性,大型服务器仍是在UNIX下。并且正如上面所述,kqueue、epoll、/dev/poll 与 IOCP相比,就是多了一层从内核copy数据到应用层的阻塞,从而不能算做asynchronous I/O类。可是,这层小小的阻塞无足轻重,kqueue、epoll、/dev/poll 已经作得很优秀了。

4.总结一些重点

       只有IOCP(windows实现)是asynchronous I/O,其余机制或多或少都会有一点阻塞。select(Linux实现)低效是由于每次它都须要轮询。但低效也是相对的,视状况而定,也可经过良好的设计改善epoll(Linux实现)、kqueue(FreeBSD实现)、/dev/poll(Solaris实现)是Reacor模式,IOCP是Proactor模式。Apache 2.2.9以前只支持select模型,2.2.9以后支持epoll模型,Nginx 支持epoll模型,Java nio包是select模型

  • (完)  by  JonnyF

相关文章
相关标签/搜索