分布式系统能够总结为是处于不一样物理位置的多个进程组成的总体,为了确保这个总体有效而且高效的对外提供服务,每一个节点之间都有可能须要进行通讯来交换信息,而这个交换信息的过程多数使用的是tcp协议。tcp协议是位于ip层之上的传输层协议,在这个传输层里有两个比较重要的协议:tcp和udp。对于应用层的开发人员来讲,用的最多的就是这两个协议,这也是一些面试官必问的知识点之一面试
不管是tcp仍是udp,都是创建在ip+端口的规则之上,什么意思呢?也就是说采用tcp和udp的进程都须要一个端口来读取和写入数据。算法
tcp协议是可靠的协议,并且是面向链接的,创建链接的过程会通过三次握手。为何会是三次握手而不是二次或者四次呢?缓存
说到这个问题,能够抽象出一个场景,怎么样才能肯定一端是和另一端互通的呢?其实很简单,一端发送给另外一端的消息能顺利给我答复,这就说明两端是联通的。tcp协议的三次握手刚好说明了这一点,A和B通讯,只要三次握手,A能获得B的答复,B也能获得A的答复。网络
基于ip层发送的报文,在网络中是没法肯定是否正确到达对方的。tcp协议在ip协议之上添加了一系列数据结构和算法来保证tcp的数据正确到达。数据结构
说了这么多,其实能够把tcp看作是一个有状态的协议,它能够根据网络情况,对方接收状况等诸多因素来调整本身的发送状态。socket
相对于tcp协议来讲,udp要简单不少数据结构和算法
udp基于以上特性能够在网络环境比较好或者对于丢包不敏感的应用中使用。udp在舍弃了重传,顺序等一些列特性以后,处理速度特别快,在一些不敏感可是实时性要求比较高的场景中应用很是普遍。tcp
在有了tcp和udp协议以后,进程间通讯的基石就有了。可是总不能每次通讯本身都须要写tcp的三次握手等这些复杂过程吧。为了屏蔽这些复杂的过程,使通讯程序简单,在tcp和udp协议之上,便抽象出来了socket这个概念。分布式
所谓套接字(Socket),就是对网络中不一样主机上的应用进程之间进行双向通讯的端点的抽象。一个套接字就是网络上进程通讯的一端,提供了应用层进程利用网络协议交换数据的机制。从所处的地位来说,套接字上联应用进程,下联网络协议栈,是应用程序经过网络协议进行通讯的接口,是应用程序与网络协议根进行交互的接口设计
socket是区分服务端和客户端的,本地的socket与远程的一个socket创建链接的过程,其实就是tcp协议三次握手的过程。一旦socket链接创建,就能够利用socket抽象出来的read或者write方法来进行通讯了。
socket须要指定使用的IP协议,还须要指定使用的是tcp仍是udp协议。基于tcp协议的服务端的socket须要bind一个端口来listen而且accept客户端的socket链接。这也是服务端socket和客户端socket的一个区别。
对于udp来讲,过程有点不同。udp是没有链接的,一是不须要三次握手,二是不须要listen和connect,可是仍然须要ip和端口bind,要否则远端的数据到来的时候,系统会找不到接收程序的。UDP是没有链接状态的,于是不须要每次链接都创建一组Socket,而是只用一个Socket,就可以和多个客户端通讯。也正是由于没有链接状态,每次通讯的时候,调用sendto和recvfrom,都须要传入 IP 地址和端口。
基于tcp的socket在内核中都有一个发送缓冲区和接收缓冲区,tcp的双工工做模式以及tcp的滑动窗口就是依赖于这两个独立的buffer以及buffer的数据填充状态。接收缓冲区把数据缓存入内核之中,若是对应的应用一直没有调用socket的read方法进行数据读取,则此数据会一直被缓存在接收缓冲区中,若是接收缓冲区满了,便会通知对方socket,以调整对方socket的发送窗口大小,这就是滑动窗口的实现。若是对方仍然持续发送数据,接收方在接收缓冲区没有被读取的状况下将丢弃后到的数据,这就是tcp的流量控制。对于udp来讲,它没有真正的发送缓冲区,只要有数据就会发送,不管对方可否正常正确接收,这也是udp丢包的缘由之一,可是udp的socket 和tcp的socket同样都会有接收缓冲区,并且行为也同样。
有的面试官吹水,号称http长链接,这个说法实际上是不许确的,长链接和短链接是针对tcp协议而言,http只是创建在tcp/ip协议之上的应用层的一个协议。整体而言,tcp和udp设计的数据结构和算法有不少,这里只是粗略的说了一下,有兴趣的同窗能够去研究tcp协议那本书。