并发 IO 问题一直是服务器端编程中的技术难题,从最先的同步阻塞直接 Fork 进程,到 Worker 进程池/线程池,到如今的异步IO、协程。PHP 程序员由于有强大的 LAMP 框架,对这类底层方面的知识知之甚少,本文目的就是详细介绍 PHP 进行并发 IO 编程的各类尝试,最后再介绍 Swoole 的使用,深刻浅出全面解析并发 IO 问题。php
多进程/多线程同步阻塞react
最先的服务器端程序都是经过多进程、多线程来解决并发IO的问题。进程模型出现的最先,从 Unix 系统诞生就开始有了进程的概念。最先的服务器端程序通常都是 Accept 一个客户端链接就建立一个进程,而后子进程进入循环同步阻塞地与客户端链接进行交互,收发处理数据。git
多线程模式出现要晚一些,线程与进程相比更轻量,并且线程之间是共享内存堆栈的,因此不一样的线程之间交互很是容易实现。好比聊天室这样的程序,客户端链接之间能够交互,比聊天室中的玩家能够任意的其余人发消息。用多线程模式实现很是简单,线程中能够直接向某一个客户端链接发送数据。而多进程模式就要用到管道、消息队列、共享内存,统称进程间通讯(IPC)复杂的技术才能实现。程序员
代码实例:github
多进程/线程模型的流程是web
这种模式最大的问题是,进程/线程建立和销毁的开销很大。因此上面的模式没办法应用于很是繁忙的服务器程序。对应的改进版解决了此问题,这就是经典的 Leader-Follower 模型。算法
代码实例:编程
它的特色是程序启动后就会建立N个进程。每一个子进程进入 Accept,等待新的链接进入。当客户端链接到服务器时,其中一个子进程会被唤醒,开始处理客户端请求,而且再也不接受新的TCP链接。当此链接关闭时,子进程会释放,从新进入 Accept ,参与处理新的链接。数组
这个模型的优点是彻底能够复用进程,没有额外消耗,性能很是好。不少常见的服务器程序都是基于此模型的,好比 Apache 、PHP-FPM。缓存
多进程模型也有一些缺点。
另外有一些场景多进程模型没法解决,好比即时聊天程序(IM),一台服务器要同时维持上万甚至几十万上百万的链接(经典的C10K问题),多进程模型就力不从心了。
还有一种场景也是多进程模型的软肋。一般Web服务器启动100个进程,若是一个请求消耗100ms,100个进程能够提供1000qps,这样的处理能力仍是不错的。可是若是请求内要调用外网Http接口,像QQ、微博登陆,耗时会很长,一个请求须要10s。那一个进程1秒只能处理0.1个请求,100个进程只能达到10qps,这样的处理能力就太差了。
有没有一种技术能够在一个进程内处理全部并发IO呢?答案是有,这就是IO复用技术。
IO复用/事件循环/异步非阻塞
其实IO复用的历史和多进程同样长,Linux很早就提供了 select 系统调用,能够在一个进程内维持1024个链接。后来又加入了poll系统调用,poll作了一些改进,解决了 1024 限制的问题,能够维持任意数量的链接。但select/poll还有一个问题就是,它须要循环检测链接是否有事件。这样问题就来了,若是服务器有100万个链接,在某一时间只有一个链接向服务器发送了数据,select/poll须要作循环100万次,其中只有1次是命中的,剩下的99万9999次都是无效的,白白浪费了CPU资源。
直到Linux 2.6内核提供了新的epoll系统调用,能够维持无限数量的链接,并且无需轮询,这才真正解决了 C10K 问题。如今各类高并发异步IO的服务器程序都是基于epoll实现的,好比Nginx、Node.js、Erlang、Golang。像 Node.js 这样单进程单线程的程序,均可以维持超过1百万TCP链接,所有归功于epoll技术。
IO复用异步非阻塞程序使用经典的Reactor模型,Reactor顾名思义就是反应堆的意思,它自己不处理任何数据收发。只是能够监视一个socket句柄的事件变化。
Reactor有4个核心的操做:
Reactor只是一个事件发生器,实际对socket句柄的操做,如connect/accept、send/recv、close是在callback中完成的。具体编码可参考下面的伪代码:
Reactor模型还能够与多进程、多线程结合起来用,既实现异步非阻塞IO,又利用到多核。目前流行的异步服务器程序都是这样的方式:如
协程是什么
协程从底层技术角度看实际上仍是异步IO Reactor模型,应用层自行实现了任务调度,借助Reactor切换各个当前执行的用户态线程,但用户代码中彻底感知不到Reactor的存在。
PHP并发IO编程实践
PHP相关扩展
PHP语言的优劣势
PHP的优势:
另外PHP有超过20年的历史,生态圈是很是大的,在Github能够找到不少代码。
PHP的缺点:
因此PHP
PHP的Swoole扩展
基于上面的扩展使用纯PHP就能够彻底实现异步网络服务器和客户端程序。可是想实现一个相似于多IO线程,仍是有不少繁琐的编程工做要作,包括如何来管理链接,如何来保证数据的收发原子性,网络协议的处理。另外PHP代码在协议处理部分性能是比较差的,因此我启动了一个新的开源项目Swoole,使用C语言和PHP结合来完成了这项工做。灵活多变的业务模块使用PHP开发效率高,基础的底层和协议处理部分用C语言实现,保证了高性能。它以扩展的方式加载到了PHP中,提供了一个完整的网络通讯的框架,而后PHP的代码去写一些业务。它的模型是基于多线程Reactor+多进程Worker,既支持全异步,也支持半异步半同步。
Swoole的一些特色:
Swoole的进程/线程模型:
Swoole程序的执行流程:
使用PHP+Swoole扩展实现异步通讯编程
实例代码在https://github.com/swoole/swo... 主页查看。
TCP服务器与客户端
异步TCP服务器:
在这里new swoole_server对象,而后参数传入监听的HOST和PORT,而后设置了3个回调函数,分别是onConnect有新的链接进入、onReceive收到了某一个客户端的数据、onClose某个客户端关闭了链接。最后调用start启动服务器程序。swoole底层会根据当前机器有多少CPU核数,启动对应数量的Reactor线程和Worker进程。
异步客户端:
客户端的使用方法和服务器相似只是回调事件有4个,onConnect成功链接到服务器,这时能够去发送数据到服务器。onError链接服务器失败。onReceive服务器向客户端链接发送了数据。onClose链接关闭。
设置完事件回调后,发起connect到服务器,参数是服务器的IP,PORT和超时时间。
同步客户端:
同步客户端不须要设置任何事件回调,它没有Reactor监听,是阻塞串行的。等待IO完成才会进入下一步。
异步任务:
异步任务功能用于在一个纯异步的Server程序中去执行一个耗时的或者阻塞的函数。底层实现使用进程池,任务完成后会触发onFinish,程序中能够获得任务处理的结果。好比一个IM须要广播,若是直接在异步代码中广播可能会影响其余事件的处理。另外文件读写也可使用异步任务实现,由于文件句柄没办法像socket同样使用Reactor监听。由于文件句柄老是可读的,直接读取文件可能会使服务器程序阻塞,使用异步任务是很是好的选择。
异步毫秒定时器
这2个接口实现了相似JS的setInterval、setTimeout函数功能,能够设置在n毫秒间隔实现一个函数或 n毫秒后执行一个函数。
异步MySQL客户端
swoole还提供一个内置链接池的MySQL异步客户端,能够设定最大使用MySQL链接数。并发SQL请求能够复用这些链接,而不是重复建立,这样能够保护MySQL避免链接资源被耗尽。
异步Redis客户端
异步的Web程序
程序的逻辑是从Redis中读取一个数据,而后显示HTML页面。使用ab压测性能以下:
一样的逻辑在php-fpm下的性能测试结果以下:
WebSocket程序
swoole内置了websocket服务器,能够基于此实现Web页面主动推送的功能,好比WebIM。有一个开源项目能够做为参考。https://github.com/matyhtf/ph...