Select 模型简介

时间 2019-12-28

标签 select 模型简介繁體版

原文原文链接

http://python.jobbole.com/84058/

多路复用I/O

在简明网络I/O模型文章能够知道经常使用的IO模型。其中同步模型中，使用多路复用I/O能够提升服务器的性能。node

在多路复用的模型中，比较经常使用的有select模型和poll模型。这两个都是系统接口，由操做系统提供。固然，Python的select模块进行了更高级的封装。select与poll的底层原理都差很少。下面就介绍select。python

select 原理

网络通讯被Unix系统抽象为文件的读写，一般是一个设备，由设备驱动程序提供，驱动能够知道自身的数据是否可用。支持阻塞操做的设备驱动一般会实现一组自身的等待队列，如读/写等待队列用于支持上层(用户层)所需的block或non-block操做。设备的文件的资源若是可用（可读或者可写）则会通知进程，反之则会让进程睡眠，等到数据到来可用的时候，再唤醒进程。nginx

这些设备的文件描述符被放在一个数组中，而后select调用的时候遍历这个数组，若是对于的文件描述符可读则会返回改文件描述符。当遍历结束以后，若是仍然没有一个可用设备文件描述符，select让用户进程则会睡眠，直到等待资源可用的时候在唤醒，遍历以前那个监视的数组。每次遍历都是线性的。数组

select 回显服务器

select涉及系统调用和操做系统相关的知识，所以单从字面上理解其原理仍是比较乏味。用代码来演示最好不过了。使用python的select模块很容易写出下面一个回显服务器：服务器

1网络

2app

3curl

4异步

5socket

import select

import socket

import sys

HOST = 'localhost'

PORT = 5000

BUFFER_SIZE = 1024

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server.bind((HOST, PORT))

server.listen(5)

inputs = [server, sys.stdin]

running = True

while True:

try:

# 调用 select 函数，阻塞等待

readable, writeable, exceptional = select.select(inputs, [], [])

except select.error, e:

break

# 数据抵达，循环

for sock in readable:

# 创建链接

if sock == server:

conn, addr = server.accept()

# select 监听的socket

inputs.append(conn)

elif sock == sys.stdin:

junk = sys.stdin.readlines()

running = False

else:

try:

# 读取客户端链接发送的数据

data = sock.recv(BUFFER_SIZE)

if data:

sock.send(data)

if data.endswith('\r\n\r\n'):

# 移除select监听的socket

inputs.remove(sock)

sock.close()

else:

# 移除select监听的socket

inputs.remove(sock)

sock.close()

except socket.error, e:

inputs.remove(sock)

server.close()

运行上述代码，使用curl访问http://localhost:5000，便可看命令行返回请求的HTTP request信息。

下面详细解析上述代码的原理。

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server.bind((HOST, PORT))

server.listen(5)

上述代码使用socket初始化一个TCP套接字，并绑定主机地址和端口，而后设置服务器监听。

1	inputs = [server, sys.stdin]

这里定义了一个须要select监听的列表，列表里面是须要监听的对象（等于系统监听的文件描述符）。这里监听socket套接字和用户的输入。

而后代码进行一个服务器无线循环。

try:

# 调用 select 函数，阻塞等待

readable, writeable, exceptional = select.select(inputs, [], [])

except select.error, e:

break

调用了select函数，开始循环遍历监听传入的列表inputs。若是没有curl服务器，此时没有创建tcp客户端链接，所以改列表内的对象都是数据资源不可用。所以select阻塞不返回。

客户端输入curl http://localhost:5000以后，一个套接字通讯开始，此时input中的第一个对象server由不可用变成可用。所以select函数调用返回，此时的readable有一个套接字对象（文件描述符可读）。

for sock in readable:

# 创建链接

if sock == server:

conn, addr = server.accept()

# select 监听的socket

inputs.append(conn)

select返回以后，接下来遍历可读的文件对象，此时的可读中只有一个套接字链接，调用套接字的accept()方法创建TCP三次握手的链接，而后把该链接对象追加到inputs监视列表中，表示咱们要监视该链接是否有数据IO操做。

因为此时readable只有一个可用的对象，所以遍历结束。再回到主循环，再次调用select，此时调用的时候，不只会遍历监视是否有新的链接须要创建，仍是监视刚才追加的链接。若是curl的数据到了，select再返回到readable，此时在进行for循环。若是没有新的套接字，将会执行下面的代码：

try:

# 读取客户端链接发送的数据

data = sock.recv(BUFFER_SIZE)

if data:

sock.send(data)

if data.endswith('rnrn'):

# 移除select监听的socket

inputs.remove(sock)

sock.close()

else:

# 移除select监听的socket

inputs.remove(sock)

sock.close()

except socket.error, e:

inputs.remove(sock)

经过套接字链接调用recv函数，获取客户端发送的数据，当数据传输完毕，再把监视的inputs列表中除去该链接。而后关闭链接。

整个网络交互过程就是如此，固然这里若是用户在命令行中输入中断，inputs列表中监视的sys.stdin也会让select返回，最后也会执行下面的代码：

elif sock == sys.stdin:

junk = sys.stdin.readlines()

running = False

有人可能有疑问，在程序处理sock链接的是时候，假设又输入了curl对服务器请求，将会怎么办？此时毫无疑问，inputs里面的server套接字会变成可用。等如今的for循环处理完毕，此时select调用就会返回server。若是inputs里面还有上一个过程的conn链接，那么也会循环遍历inputs的时候，再一次针对新的套接字accept到inputs列表进行监视，而后继续循环处理以前的conn链接。如此有条不紊的进行，直到for循环结束，进入主循环调用select。

任什么时候候，inputs监听的对象有数据，下一次调用select的时候，就会繁返回readable，只要返回，就会对readable进行for循环，直到for循环结束在进行下一次select。

主要注意，套接字创建链接是一次IO，链接的数据抵达也是一次IO。

select的不足

尽管select用起来挺爽，跨平台的特性。可是select仍是存在一些问题。
select须要遍历监视的文件描述符，而且这个描述符的数组还有最大的限制。随着文件描述符数量的增加，用户态和内核的地址空间的复制所引起的开销也会线性增加。即便监视的文件描述符长时间不活跃了，select仍是会线性扫描。

为了解决这些问题，操做系统又提供了poll方案，可是poll的模型和select大体至关，只是改变了一些限制。目前Linux最早进的方式是epoll模型。

许多高性能的软件如nginx, nodejs都是基于epoll进行的异步。