python走起之第八话

1. Socket介绍

概念

network socket is an endpoint of a connection across a computer network. Today, most communication between computers is based on the Internet Protocol; therefore most network sockets are Internet sockets. More precisely, a socket is a handle (abstract reference) that a local program can pass to the networking application programming interface (API) to use the connection, for example "send this data on this socket".html

For example, to send "Hello, world!" via TCP to port 80 of the host with address 1.2.3.4, one might get a socket, connect it to the remote host, send the string, then close the socket.python

实现一个socket至少要分如下几步,(伪代码)linux

1
2
3
4
Socket socket  =  getSocket( type  =  "TCP" )   #设定好协议类型
connect(socket, address  =  "1.2.3.4" , port  =  "80" #链接远程机器
send(socket,  "Hello, world!" #发送消息
close(socket)  #关闭链接

socket API is an application programming interface (API), usually provided by the operating system, that allows application programs to control and use network sockets. Internet socket APIs are usually based on the Berkeley sockets standard. In the Berkeley sockets standard, sockets are a form of file descriptor (a file handle), due to the Unix philosophy that "everything is a file", and the analogies between sockets and files: you can read, write, open, and close both.   缓存

socket address is the combination of an IP address and a port number, much like one end of a telephone connection is the combination of a phone number and a particular extension. Sockets need not have an address (for example for only sending data), but if a program binds a socket to an address, the socket can be used to receive data sent to that address. Based on this address, internet sockets deliver incoming data packets to the appropriate application process or thread.服务器

Socket Families(地址簇)

socket.AF_UNIX unix本机进程间通讯 网络

socket.AF_INET IPV4 多线程

socket.AF_INET6  IPV6并发

These constants represent the address (and protocol) families, used for the first argument to socket(). If the AF_UNIX constant is not defined then this protocol is unsupported. More constants may be available depending on the system.app

Socket Types

socket.SOCK_STREAM  #for tcpdom

socket.SOCK_DGRAM   #for udp 

socket.SOCK_RAW     #原始套接字,普通的套接字没法处理ICMP、IGMP等网络报文,而SOCK_RAW能够;其次,SOCK_RAW也能够处理特殊的IPv4报文;此外,利用原始套接字,能够经过IP_HDRINCL套接字选项由用户构造IP头。

socket.SOCK_RDM  #是一种可靠的UDP形式,即保证交付数据报但不保证顺序。SOCK_RAM用来提供对原始协议的低级访问,在须要执行某些特殊操做时使用,如发送ICMP报文。SOCK_RAM一般仅限于高级用户或管理员运行的程序使用。

socket.SOCK_SEQPACKET #废弃了

These constants represent the socket types, used for the second argument to socket(). More constants may be available depending on the system. (Only SOCK_STREAM and SOCK_DGRAM appear to be generally useful.)

 

2. Socket 参数介绍

socket.socket(family=AF_INETtype=SOCK_STREAMproto=0fileno=None)  必会

Create a new socket using the given address family, socket type and protocol number. The address family should be AF_INET (the default), AF_INET6AF_UNIXAF_CAN or AF_RDS. The socket type should beSOCK_STREAM (the default), SOCK_DGRAMSOCK_RAW or perhaps one of the other SOCK_ constants. The protocol number is usually zero and may be omitted or in the case where the address family is AF_CAN the protocol should be one of CAN_RAW or CAN_BCM. If fileno is specified, the other arguments are ignored, causing the socket with the specified file descriptor to return. Unlike socket.fromfd()fileno will return the same socket and not a duplicate. This may help close a detached socket using socket.close().

socket.socketpair([family[, type[, proto]]])

Build a pair of connected socket objects using the given address family, socket type, and protocol number. Address family, socket type, and protocol number are as for the socket() function above. The default family is AF_UNIX if defined on the platform; otherwise, the default is AF_INET.

socket.create_connection(address[, timeout[, source_address]])

Connect to a TCP service listening on the Internet address (a 2-tuple (host, port)), and return the socket object. This is a higher-level function than socket.connect(): if host is a non-numeric hostname, it will try to resolve it for both AF_INET and AF_INET6, and then try to connect to all possible addresses in turn until a connection succeeds. This makes it easy to write clients that are compatible to both IPv4 and IPv6.

Passing the optional timeout parameter will set the timeout on the socket instance before attempting to connect. If no timeout is supplied, the global default timeout setting returned by getdefaulttimeout() is used.

If supplied, source_address must be a 2-tuple (host, port) for the socket to bind to as its source address before connecting. If host or port are ‘’ or 0 respectively the OS default behavior will be used.

socket.getaddrinfo(hostportfamily=0type=0proto=0flags=0) #获取要链接的对端主机地址 必会

sk.bind(address) 必会

  s.bind(address) 将套接字绑定到地址。address地址的格式取决于地址族。在AF_INET下,以元组(host,port)的形式表示地址。

sk.listen(backlog) 必会

  开始监听传入链接。backlog指定在拒绝链接以前,能够挂起的最大链接数量。

      backlog等于5,表示内核已经接到了链接请求,但服务器尚未调用accept进行处理的链接个数最大为5
      这个值不能无限大,由于要在内核中维护链接队列

sk.setblocking(bool) 必会

  是否阻塞(默认True),若是设置False,那么accept和recv时一旦无数据,则报错。

sk.accept() 必会

  接受链接并返回(conn,address),其中conn是新的套接字对象,能够用来接收和发送数据。address是链接客户端的地址。

  接收TCP 客户的链接(阻塞式)等待链接的到来

sk.connect(address) 必会

  链接到address处的套接字。通常,address的格式为元组(hostname,port),若是链接出错,返回socket.error错误。

sk.connect_ex(address)

  同上,只不过会有返回值,链接成功时返回 0 ,链接失败时候返回编码,例如:10061

sk.close() 必会

  关闭套接字

sk.recv(bufsize[,flag]) 必会

  接受套接字的数据。数据以字符串形式返回,bufsize指定最多能够接收的数量。flag提供有关消息的其余信息,一般能够忽略。

sk.recvfrom(bufsize[.flag])

  与recv()相似,但返回值是(data,address)。其中data是包含接收数据的字符串,address是发送数据的套接字地址。

sk.send(string[,flag]) 必会

  将string中的数据发送到链接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。即:可能未将指定内容所有发送。

sk.sendall(string[,flag]) 必会

  将string中的数据发送到链接的套接字,但在返回以前会尝试发送全部数据。成功返回None,失败则抛出异常。

      内部经过递归调用send,将全部内容发送出去。

sk.sendto(string[,flag],address)

  将数据发送到套接字,address是形式为(ipaddr,port)的元组,指定远程地址。返回值是发送的字节数。该函数主要用于UDP协议。

sk.settimeout(timeout) 必会

  设置套接字操做的超时期,timeout是一个浮点数,单位是秒。值为None表示没有超时期。通常,超时期应该在刚建立套接字时设置,由于它们可能用于链接的操做(如 client 链接最多等待5s )

sk.getpeername()  必会

  返回链接套接字的远程地址。返回值一般是元组(ipaddr,port)。

sk.getsockname() 

  返回套接字本身的地址。一般是一个元组(ipaddr,port)

sk.fileno() 

  套接字的文件描述符

socket.sendfile(fileoffset=0count=None)

     发送文件 ,但目前多数状况下并没有什么卵用。

 

3. 基本Socket实例

前面讲了这么多,到底咋么用呢?

  SocketServer.py
  SocketClient.py

上面的代码的有一个问题, 就是SocketServer.py运行起来后, 接收了一次客户端的data就退出了。。。, 但实际场景中,一个链接创建起来后,可能要进行屡次往返的通讯。

 

屡次的数据交互怎么实现呢?

  socketserver 支持屡次交互
  socket客户端支持多交互

实现了屡次交互, 棒棒的, 但你会发现一个小问题, 就是客户端一断开,服务器端就进入了死循环,为啥呢?

看客户端断开时服务器端的输出

1
2
3
4
5
6
7
8
9
等待客户端的链接...
新链接: ( '127.0.0.1' 62722 )
收到消息: b 'hey'
收到消息: b 'you'
收到消息: b''   #客<span style="color: #ff0000;">户端一断开,服务器端就收不到数据了,可是不会报错,就进入了死循环模式。。</span>。
收到消息: b''
收到消息: b''
收到消息: b''
收到消息: b''

知道了缘由就好解决了,只须要加个判断服务器接到的数据是否为空就行了,为空就表明断了。。。

  加了判断客户端是否断开的代码

 

4.Socket实现多链接处理

上面的代码虽然实现了服务端与客户端的屡次交互,可是你会发现,若是客户端断开了, 服务器端也会跟着马上断开,由于服务器只有一个while 循环,客户端一断开,服务端收不到数据 ,就会直接break跳出循环,而后程序就退出了,这显然不是咱们想要的结果 ,咱们想要的是,客户端若是断开了,咱们这个服务端还能够为下一个客户端服务,它不能断,她接完一个客,擦完嘴角的遗留物,就要接下来勇敢的去接待下一个客人。 在这里如何实现呢?

1
conn,addr  =  server.accept()  #接受并创建与客户端的链接,程序在此处开始阻塞,只到有客户端链接进来...

咱们知道上面这句话负责等待并接收新链接,对于上面那个程序,其实在while break以后,只要让程序再次回到上面这句代码这,就可让服务端继续接下一个客户啦。 

注意了, 此时服务器端依然只能同时为一个客户服务,其客户来了,得排队(链接挂起),不能玩 three some. 这时你说想,我就想玩3p,就想就想嘛,其实也能够,多交钱嘛,继续往下看,后面开启新姿式后就能够玩啦。。。

 

5.经过socket实现简单的ssh

光只是简单的发消息、收消息没意思,干点正事,能够作一个极简版的ssh,就是客户端链接上服务器后,让服务器执行命令,并返回结果给客户端。

  socket ssh server
  socket ssh client

very cool , 这样咱们就作了一个简单的ssh , 但多试几条命令你就会发现,上面的程序有如下2个问题。 

  1. 不能执行top等相似的 会持续输出的命令,这是由于,服务器端在收到客户端指令后,会一次性经过os.popen执行,并获得结果后返回给客户,但top这样的命令用os.popen执行你会发现永远都不会结束,因此客户端也永远拿不到返回。(真正的ssh是经过select 异步等模块实现的,咱们之后会涉及)
  2. 不能执行像cd这种没有返回的指令, 由于客户端每发送一条指令,就会经过client.recv(1024)等待接收服务器端的返回结果,可是cd命令没有结果 ,服务器端调用conn.send(data)时是不会发送数据给客户端的。 因此客户端就会一直等着,等到天荒地老,结果就卡死了。解决的办法是,在服务器端判断命令的执行返回结果的长度,若是结果为空,就本身加个结果返回给客户端,如写上"cmd exec success, has no output."
  3. 若是执行的命令返回结果的数据量比较大,会发现,结果返回不全,在客户端上再执行一条命令,结果返回的仍是上一条命令的后半段的执行结果,这是为何呢?这是由于,咱们的客户写client.recv(1024), 即客户端一次最多只接收1024个字节,若是服务器端返回的数据是2000字节,那有至少9百多字节是客户端第一次接收不了的,那怎么办呢,服务器端此时不能把数据直接扔了呀,so它会暂时存在服务器的io发送缓冲区里,等客户端下次再接收数据的时候再发送给客户端。 这就是为何客户端执行第2条命令时,却接收到了第一条命令的结果的缘由。 这时有同窗说了, 那我直接在客户端把client.recv(1024)改大一点不就行了么, 改为一次接收个100mb,哈哈,这是不行的,由于socket每次接收和发送都有最大数据量限制的,毕竟网络带宽也是有限的呀,不能一次发太多,发送的数据最大量的限制 就是缓冲区能缓存的数据的最大量,这个缓冲区的最大值在不一样的系统上是不同的, 我实在查不到一个具体的数字,但测试的结果是,在linux上最大一次可接收10mb左右的数据,不过官方的建议是不超过8k,也就是8192,而且数据要能够被2整除,不要问为何 。anyway , 若是一次只能接收最多不超过8192的数据 ,那服务端返回的数据超过了这个数字怎么办呢?好比让服务器端打开一个5mb的文件并返回,客户端怎么才能完整的接受到呢?那就只能循环收取啦。 

 

在开始解决上面问题3以前,咱们要考虑,客户端要循环接收服务器端的大量数据返回直到一条命令的结果所有返回为止, 但问题是客户端知道服务器端返回的数据有多大么?答案是不知道,那既然不知道服务器的要返回多大的数据,那客户端怎么知道要循环接收多少次呢?答案是不知道,擦,那咋办? 总不能靠猜吧?呵呵。。。 固然不能,那只能让服务器在发送数据以前主动告诉客户端,要发送多少数据给客户端,而后再开始发送数据,yes, 机智如我,搞起。

先简单测试接收数据量大小

  ssh server 返回执行结果大小
  ssh client 接收执行结果的大小
1
2
3
4
5
6
7
8
9
结果输出:<br> / Library / Frameworks / Python.framework / Versions / 3.5 / bin / python3. 5  / Users / jieli / PycharmProjects / python基础 / 自动化day8socket / sock_client.py
>>:cat  / var / log / system.log
getting cmd result ,  b '3472816Sep  9 09:06:37 Jies-MacBook-Air kernel[0]: hibernate image path: /var/vm/sleepimage\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: efi pagecount 65\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: hibernate_page_list_setall(preflight 1) start\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: hibernate_page_list_setall time: 211 ms\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: pages 1211271, wire 225934, act 399265, inact 4, cleaned 0 spec 97, zf 3925, throt 0, compr 218191, xpmapped 40000\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: could discard act 94063 inact 129292 purgeable 58712 spec 81788 cleaned 0\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: WARNING: hibernate_page_list_setall skipped 47782 xpmapped pages\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: hibernate_page_list_setall preflight pageCount 225934 est comp 41 setfile 421527552 min 1073741824\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: kern_open_file_for_direct_io(0)\nSep  9 09:06:37 Jies-MacBook-Air kernel[0]: kern_open_file_for_direct_io took 181 ms\nSep  9 '
Traceback (most recent call last):
   File  "/Users/jieli/PycharmProjects/python基础/自动化day8socket/sock_client.py" , line  17 in  <module>
     total_rece_size  =  int (res_return_size)
ValueError: invalid literal  for  int () with base  10 : b' 3472816Sep   9  09 : 06 : 37  Jies - MacBook - Air kernel[ 0 ]: hibernate image path:  / var / vm / sleepimage\nSep   9  09 : 06 : 37  Jies - MacBook - Air kernel[ 0 ]: efi pagecount  65 \nSep   9  09 : 06 : 37  Jies - MacBook - Air kernel[ 0 ]:
 
Process finished with exit code  1

看程序执行报错了, 我在客户端本想只接服务器端命令的执行结果,但实际上却连命令结果也跟着接收了一部分。 这是为何呢???服务器不是只send告终果的大小么?不该该只是个数字么?尼玛命令结果不是第2次send的时候才发送的么??,擦,擦,擦,价值观都要崩溃了啊。。。。

哈哈,这里就引入了一个重要的概念,“粘包”, 即服务器端你调用时send 2次,但你send调用时,数据其实并无马上被发送给客户端,而是放到了系统的socket发送缓冲区里,等缓冲区满了、或者数据等待超时了,数据才会被send到客户端,这样就把好几回的小数据拼成一个大数据,统一发送到客户端了,这么作的目地是为了提升io利用效率,一次性发送总比连发好几回效率高嘛。 但也带来一个问题,就是“粘包”,即2次或屡次的数据粘在了一块儿统一发送了。就是咱们上面看到的状况 。 

咱们在这里必需要想办法把粘包分开, 由于不分开,你就没办法取出来服务器端返回的命令执行结果的大小呀。so ,那怎么分开呢?首先你是没办法让缓冲区强制刷新把数据发给客户端的。 你能作的,只有一个。就是,让缓冲区超时,超时了,系统就不会等缓冲区满了,会直接把数据发走,由于不能一个劲的等后面的数据呀,等过久,会形成数据延迟了,那但是极很差的。so若是让缓冲区超时呢?

答案就是:

  1. time.sleep(0.5),经屡次测试,让服务器程序sleep 至少0.5就会形成缓冲区超时。哈哈哈, 你会说,擦,这么玩不会被老板开除么,虽然咱们以为0.5s很少,可是对数据实时要求高的业务场景,好比股票交易,过了0.5s 股票价格能够就涨跌不少,搞毛线呀。但没办法,我刚学socket的时候 找不到更好的办法,就是这么玩的,如今想一想也真是low呀
  2. 但如今我是有Tesla的男人了,不能再这么low了, 因此推出nb新姿式就是, 不用sleep,服务器端每发送一个数据给客户端,就马上等待客户端进行回应,即调用 conn.recv(1024), 因为recv在接收不到数据时是阻塞的,这样就会形成,服务器端接收不到客户端的响应,就不会执行后面的conn.sendall(命令结果)的指令,收到客户端响应后,再发送命令结果时,缓冲区就已经被清空了,由于上一次的数据已经被强制发到客户端了。 好机智 , 看下面代码实现。
  接收大数据 server端
  接收大数据客户端

 

 

6. SocketServer

The socketserver module simplifies the task of writing network servers.

socketserver一共有这么几种类型

1
class  socketserver.TCPServer(server_address, RequestHandlerClass, bind_and_activate = True )

This uses the Internet TCP protocol, which provides for continuous streams of data between the client and server. 

1
class  socketserver.UDPServer(server_address, RequestHandlerClass, bind_and_activate = True )

This uses datagrams, which are discrete packets of information that may arrive out of order or be lost while in transit. The parameters are the same as for TCPServer.

1
2
class  socketserver.UnixStreamServer(server_address, RequestHandlerClass, bind_and_activate = True )
class  socketserver.UnixDatagramServer(server_address, RequestHandlerClass,bind_and_activate = True )

These more infrequently used classes are similar to the TCP and UDP classes, but use Unix domain sockets; they’re not available on non-Unix platforms. The parameters are the same as for TCPServer.

There are five classes in an inheritance diagram, four of which represent synchronous servers of four types:

+------------+ | BaseServer | +------------+ | v +-----------+ +------------------+ | TCPServer |------->| UnixStreamServer | +-----------+ +------------------+ | v +-----------+ +--------------------+ | UDPServer |------->| UnixDatagramServer | +-----------+ +--------------------+


建立一个socketserver 至少分如下几步:

  1. First, you must create a request handler class by subclassing the BaseRequestHandlerclass and overriding its handle() method; this method will process incoming requests.   
  2. Second, you must instantiate one of the server classes, passing it the server’s address and the request handler class.
  3. Then call the handle_request() orserve_forever() method of the server object to process one or many requests.
  4. Finally, call server_close() to close the socket.

基本的socketserver代码

  View Code

但你发现,上面的代码,依然不能同时处理多个链接,擦,那我搞这个干吗?别急,不是不能处理多并发,若是你想,你还要启用多线程,多线程咱们如今还没讲,但你大致知道,有了多线程,就能同时让cpu干多件事了就行先。

 

让你的socketserver并发起来, 必须选择使用如下一个多并发的类

class socketserver.ForkingTCPServer

class socketserver.ForkingUDPServer

class socketserver.ThreadingTCPServer

class socketserver.ThreadingUDPServer

 

so 只须要把下面这句

1
server  =  socketserver.TCPServer((HOST, PORT), MyTCPHandler)

换成下面这个,就能够多并发了,这样,客户端每连进一个来,服务器端就会分配一个新的线程来处理这个客户端的请求

    server = socketserver.ThreadingTCPServer((HOST, PORT), MyTCPHandler)

 

class socketserver.BaseServer(server_addressRequestHandlerClass) 主要有如下方法

  View Code
相关文章
相关标签/搜索