WebSocket：5分钟从入门到精通

时间 2019-11-05

标签 websocket 5分入门精通繁體版

原文原文链接

1、内容概览

WebSocket的出现，使得浏览器具有了实时双向通讯的能力。本文由浅入深，介绍了WebSocket如何创建链接、交换数据的细节，以及数据帧的格式。此外，还简要介绍了针对WebSocket的安全攻击，以及协议是如何抵御相似攻击的。javascript

2、什么是WebSocket

HTML5开始提供的一种浏览器与服务器进行全双工通信的网络技术，属于应用层协议。它基于TCP传输协议，并复用HTTP的握手通道。html

对大部分web开发者来讲，上面这段描述有点枯燥，其实只要记住几点：java

WebSocket能够在浏览器里使用
支持双向通讯
使用很简单

一、有哪些优势

说到优势，这里的对比参照物是HTTP协议，归纳地说就是：支持双向通讯，更灵活，更高效，可扩展性更好。git

支持双向通讯，实时性更强。
更好的二进制支持。
较少的控制开销。链接建立后，ws客户端、服务端进行数据交换时，协议控制的数据包头部较小。在不包含头部的状况下，服务端到客户端的包头只有2~10字节（取决于数据包长度），客户端到服务端的的话，须要加上额外的4字节的掩码。而HTTP协议每次通讯都须要携带完整的头部。
支持扩展。ws协议定义了扩展，用户能够扩展协议，或者实现自定义的子协议。（好比支持自定义压缩算法等）

对于后面两点，没有研究过WebSocket协议规范的同窗可能理解起来不够直观，但不影响对WebSocket的学习和使用。github

二、须要学习哪些东西

对网络应用层协议的学习来讲，最重要的每每就是链接创建过程、数据交换教程。固然，数据的格式是逃不掉的，由于它直接决定了协议自己的能力。好的数据格式能让协议更高效、扩展性更好。web

下文主要围绕下面几点展开：ajax

如何创建链接
如何交换数据
数据帧格式
如何维持链接

3、入门例子

在正式介绍协议细节前，先来看一个简单的例子，有个直观感觉。例子包括了WebSocket服务端、WebSocket客户端（网页端）。完整代码能够在这里找到。算法

这里服务端用了ws这个库。相比你们熟悉的socket.io，ws实现更轻量，更适合学习的目的。express

一、服务端

代码以下，监听8080端口。当有新的链接请求到达时，打印日志，同时向客户端发送消息。当收到到来自客户端的消息时，一样打印日志。浏览器

var app = require('express')();
var server = require('http').Server(app);
var WebSocket = require('ws');

var wss = new WebSocket.Server({ port: 8080 });

wss.on('connection', function connection(ws) {
    console.log('server: receive connection.');
    
    ws.on('message', function incoming(message) {
        console.log('server: received: %s', message);
    });

    ws.send('world');
});

app.get('/', function (req, res) {
  res.sendfile(__dirname + '/index.html');
});

app.listen(3000);
复制代码

二、客户端

代码以下，向8080端口发起WebSocket链接。链接创建后，打印日志，同时向服务端发送消息。接收到来自服务端的消息后，一样打印日志。

<script> var ws = new WebSocket('ws://localhost:8080'); ws.onopen = function () { console.log('ws onopen'); ws.send('from client: hello'); }; ws.onmessage = function (e) { console.log('ws onmessage'); console.log('from server: ' + e.data); }; </script> 复制代码

三、运行结果

可分别查看服务端、客户端的日志，这里不展开。

服务端输出：

server: receive connection.
server: received hello
复制代码

客户端输出：

client: ws connection is open
client: received world
复制代码

4、如何创建链接

前面提到，WebSocket复用了HTTP的握手通道。具体指的是，客户端经过HTTP请求与WebSocket服务端协商升级协议。协议升级完成后，后续的数据交换则遵守WebSocket的协议。

一、客户端：申请协议升级

首先，客户端发起协议升级请求。能够看到，采用的是标准的HTTP报文格式，且只支持GET方法。

GET / HTTP/1.1
Host: localhost:8080
Origin: http://127.0.0.1:3000
Connection: Upgrade
Upgrade: websocket
Sec-WebSocket-Version: 13
Sec-WebSocket-Key: w4v7O6xFTi36lq3RNcgctw==
复制代码

重点请求首部意义以下：

Connection: Upgrade：表示要升级协议
Upgrade: websocket：表示要升级到websocket协议。
Sec-WebSocket-Version: 13：表示websocket的版本。若是服务端不支持该版本，须要返回一个Sec-WebSocket-Versionheader，里面包含服务端支持的版本号。
Sec-WebSocket-Key：与后面服务端响应首部的Sec-WebSocket-Accept是配套的，提供基本的防御，好比恶意的链接，或者无心的链接。

注意，上面请求省略了部分非重点请求首部。因为是标准的HTTP请求，相似Host、Origin、Cookie等请求首部会照常发送。在握手阶段，能够经过相关请求首部进行安全限制、权限校验等。

二、服务端：响应协议升级

服务端返回内容以下，状态代码101表示协议切换。到此完成协议升级，后续的数据交互都按照新的协议来。

HTTP/1.1 101 Switching Protocols
Connection:Upgrade
Upgrade: websocket
Sec-WebSocket-Accept: Oy4NRAQ13jhfONC7bP8dTKb4PTU=

复制代码

备注：每一个header都以\r\n结尾，而且最后一行加上一个额外的空行\r\n。此外，服务端回应的HTTP状态码只能在握手阶段使用。过了握手阶段后，就只能采用特定的错误码。

三、Sec-WebSocket-Accept的计算

Sec-WebSocket-Accept根据客户端请求首部的Sec-WebSocket-Key计算出来。

计算公式为：

将Sec-WebSocket-Key跟258EAFA5-E914-47DA-95CA-C5AB0DC85B11拼接。
经过SHA1计算出摘要，并转成base64字符串。

伪代码以下：

>toBase64( sha1( Sec-WebSocket-Key + 258EAFA5-E914-47DA-95CA-C5AB0DC85B11 )  )
复制代码

验证下前面的返回结果：

const crypto = require('crypto');
const magic = '258EAFA5-E914-47DA-95CA-C5AB0DC85B11';
const secWebSocketKey = 'w4v7O6xFTi36lq3RNcgctw==';

let secWebSocketAccept = crypto.createHash('sha1')
	.update(secWebSocketKey + magic)
	.digest('base64');

console.log(secWebSocketAccept);
// Oy4NRAQ13jhfONC7bP8dTKb4PTU=
复制代码

5、数据帧格式

客户端、服务端数据的交换，离不开数据帧格式的定义。所以，在实际讲解数据交换以前，咱们先来看下WebSocket的数据帧格式。

WebSocket客户端、服务端通讯的最小单位是帧（frame），由1个或多个帧组成一条完整的消息（message）。

发送端：将消息切割成多个帧，并发送给服务端；
接收端：接收消息帧，并将关联的帧从新组装成完整的消息；

本节的重点，就是讲解数据帧的格式。详细定义可参考 RFC6455 5.2节。

一、数据帧格式概览

下面给出了WebSocket数据帧的统一格式。熟悉TCP/IP协议的同窗对这样的图应该不陌生。

从左到右，单位是比特。好比FIN、RSV1各占据1比特，opcode占据4比特。
内容包括了标识、操做代码、掩码、数据、数据长度等。（下一小节会展开）

0                   1                   2                   3
  0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
 +-+-+-+-+-------+-+-------------+-------------------------------+
 |F|R|R|R| opcode|M| Payload len |    Extended payload length    |
 |I|S|S|S|  (4)  |A|     (7)     |             (16/64)           |
 |N|V|V|V|       |S|             |   (if payload len==126/127)   |
 | |1|2|3|       |K|             |                               |
 +-+-+-+-+-------+-+-------------+ - - - - - - - - - - - - - - - +
 |     Extended payload length continued, if payload len == 127  |
 + - - - - - - - - - - - - - - - +-------------------------------+
 |                               |Masking-key, if MASK set to 1  |
 +-------------------------------+-------------------------------+
 | Masking-key (continued)       |          Payload Data         |
 +-------------------------------- - - - - - - - - - - - - - - - +
 :                     Payload Data continued ...                :
 + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +
 |                     Payload Data continued ...                |
 +---------------------------------------------------------------+
复制代码

二、数据帧格式详解

针对前面的格式概览图，这里逐个字段进行讲解，若有不清楚之处，可参考协议规范，或留言交流。

FIN：1个比特。

若是是1，表示这是消息（message）的最后一个分片（fragment），若是是0，表示不是是消息（message）的最后一个分片（fragment）。

RSV1, RSV2, RSV3：各占1个比特。

通常状况下全为0。当客户端、服务端协商采用WebSocket扩展时，这三个标志位能够非0，且值的含义由扩展进行定义。若是出现非零的值，且并无采用WebSocket扩展，链接出错。

Opcode: 4个比特。

操做代码，Opcode的值决定了应该如何解析后续的数据载荷（data payload）。若是操做代码是不认识的，那么接收端应该断开链接（fail the connection）。可选的操做代码以下：

%x0：表示一个延续帧。当Opcode为0时，表示本次数据传输采用了数据分片，当前收到的数据帧为其中一个数据分片。
%x1：表示这是一个文本帧（frame）
%x2：表示这是一个二进制帧（frame）
%x3-7：保留的操做代码，用于后续定义的非控制帧。
%x8：表示链接断开。
%x9：表示这是一个ping操做。
%xA：表示这是一个pong操做。
%xB-F：保留的操做代码，用于后续定义的控制帧。

Mask: 1个比特。

表示是否要对数据载荷进行掩码操做。从客户端向服务端发送数据时，须要对数据进行掩码操做；从服务端向客户端发送数据时，不须要对数据进行掩码操做。

若是服务端接收到的数据没有进行过掩码操做，服务端须要断开链接。

若是Mask是1，那么在Masking-key中会定义一个掩码键（masking key），并用这个掩码键来对数据载荷进行反掩码。全部客户端发送到服务端的数据帧，Mask都是1。

掩码的算法、用途在下一小节讲解。

Payload length：数据载荷的长度，单位是字节。为7位，或7+16位，或1+64位。

假设数Payload length === x，若是

x为0~126：数据的长度为x字节。
x为126：后续2个字节表明一个16位的无符号整数，该无符号整数的值为数据的长度。
x为127：后续8个字节表明一个64位的无符号整数（最高位为0），该无符号整数的值为数据的长度。

此外，若是payload length占用了多个字节的话，payload length的二进制表达采用网络序（big endian，重要的位在前）。

Masking-key：0或4字节（32位）

全部从客户端传送到服务端的数据帧，数据载荷都进行了掩码操做，Mask为1，且携带了4字节的Masking-key。若是Mask为0，则没有Masking-key。

备注：载荷数据的长度，不包括mask key的长度。

Payload data：(x+y) 字节

载荷数据：包括了扩展数据、应用数据。其中，扩展数据x字节，应用数据y字节。

扩展数据：若是没有协商使用扩展的话，扩展数据数据为0字节。全部的扩展都必须声明扩展数据的长度，或者能够如何计算出扩展数据的长度。此外，扩展如何使用必须在握手阶段就协商好。若是扩展数据存在，那么载荷数据长度必须将扩展数据的长度包含在内。

应用数据：任意的应用数据，在扩展数据以后（若是存在扩展数据），占据了数据帧剩余的位置。载荷数据长度减去扩展数据长度，就获得应用数据的长度。

三、掩码算法

掩码键（Masking-key）是由客户端挑选出来的32位的随机数。掩码操做不会影响数据载荷的长度。掩码、反掩码操做都采用以下算法：

首先，假设：

original-octet-i：为原始数据的第i字节。
transformed-octet-i：为转换后的数据的第i字节。
j：为i mod 4的结果。
masking-key-octet-j：为mask key第j字节。

算法描述为： original-octet-i 与 masking-key-octet-j 异或后，获得 transformed-octet-i。

j = i MOD 4 transformed-octet-i = original-octet-i XOR masking-key-octet-j

6、数据传递

一旦WebSocket客户端、服务端创建链接后，后续的操做都是基于数据帧的传递。

WebSocket根据opcode来区分操做的类型。好比0x8表示断开链接，0x0-0x2表示数据交互。

一、数据分片

WebSocket的每条消息可能被切分红多个数据帧。当WebSocket的接收方收到一个数据帧时，会根据FIN的值来判断，是否已经收到消息的最后一个数据帧。

FIN=1表示当前数据帧为消息的最后一个数据帧，此时接收方已经收到完整的消息，能够对消息进行处理。FIN=0，则接收方还须要继续监听接收其他的数据帧。

此外，opcode在数据交换的场景下，表示的是数据的类型。0x01表示文本，0x02表示二进制。而0x00比较特殊，表示延续帧（continuation frame），顾名思义，就是完整消息对应的数据帧还没接收完。

二、数据分片例子

直接看例子更形象些。下面例子来自MDN，能够很好地演示数据的分片。客户端向服务端两次发送消息，服务端收到消息后回应客户端，这里主要看客户端往服务端发送的消息。

第一条消息

FIN=1, 表示是当前消息的最后一个数据帧。服务端收到当前数据帧后，能够处理消息。opcode=0x1，表示客户端发送的是文本类型。

第二条消息

FIN=0，opcode=0x1，表示发送的是文本类型，且消息还没发送完成，还有后续的数据帧。
FIN=0，opcode=0x0，表示消息还没发送完成，还有后续的数据帧，当前的数据帧须要接在上一条数据帧以后。
FIN=1，opcode=0x0，表示消息已经发送完成，没有后续的数据帧，当前的数据帧须要接在上一条数据帧以后。服务端能够将关联的数据帧组装成完整的消息。

Client: FIN=1, opcode=0x1, msg="hello"
Server: (process complete message immediately) Hi.
Client: FIN=0, opcode=0x1, msg="and a"
Server: (listening, new message containing text started)
Client: FIN=0, opcode=0x0, msg="happy new"
Server: (listening, payload concatenated to previous message)
Client: FIN=1, opcode=0x0, msg="year!"
Server: (process complete message) Happy new year to you too!
复制代码

7、链接保持+心跳

WebSocket为了保持客户端、服务端的实时双向通讯，须要确保客户端、服务端之间的TCP通道保持链接没有断开。然而，对于长时间没有数据往来的链接，若是依旧长时间保持着，可能会浪费包括的链接资源。

但不排除有些场景，客户端、服务端虽然长时间没有数据往来，但仍须要保持链接。这个时候，能够采用心跳来实现。

发送方->接收方：ping
接收方->发送方：pong

ping、pong的操做，对应的是WebSocket的两个控制帧，opcode分别是0x9、0xA。

举例，WebSocket服务端向客户端发送ping，只须要以下代码（采用ws模块）

ws.ping('', false, true);
复制代码

8、Sec-WebSocket-Key/Accept的做用

前面提到了，Sec-WebSocket-Key/Sec-WebSocket-Accept在主要做用在于提供基础的防御，减小恶意链接、意外链接。

做用大体概括以下：

避免服务端收到非法的websocket链接（好比http客户端不当心请求链接websocket服务，此时服务端能够直接拒绝链接）
确保服务端理解websocket链接。由于ws握手阶段采用的是http协议，所以可能ws链接是被一个http服务器处理并返回的，此时客户端能够经过Sec-WebSocket-Key来确保服务端认识ws协议。（并不是百分百保险，好比老是存在那么些无聊的http服务器，光处理Sec-WebSocket-Key，但并无实现ws协议。。。）
用浏览器里发起ajax请求，设置header时，Sec-WebSocket-Key以及其余相关的header是被禁止的。这样能够避免客户端发送ajax请求时，意外请求协议升级（websocket upgrade）
能够防止反向代理（不理解ws协议）返回错误的数据。好比反向代理先后收到两次ws链接的升级请求，反向代理把第一次请求的返回给cache住，而后第二次请求到来时直接把cache住的请求给返回（无心义的返回）。
Sec-WebSocket-Key主要目的并非确保数据的安全性，由于Sec-WebSocket-Key、Sec-WebSocket-Accept的转换计算公式是公开的，并且很是简单，最主要的做用是预防一些常见的意外状况（非故意的）。

强调：Sec-WebSocket-Key/Sec-WebSocket-Accept 的换算，只能带来基本的保障，但链接是否安全、数据是否安全、客户端/服务端是否合法的 ws客户端、ws服务端，其实并无实际性的保证。

9、数据掩码的做用

WebSocket协议中，数据掩码的做用是加强协议的安全性。但数据掩码并非为了保护数据自己，由于算法自己是公开的，运算也不复杂。除了加密通道自己，彷佛没有太多有效的保护通讯安全的办法。

那么为何还要引入掩码计算呢，除了增长计算机器的运算量外彷佛并无太多的收益（这也是很多同窗疑惑的点）。

答案仍是两个字：安全。但并非为了防止数据泄密，而是为了防止早期版本的协议中存在的代理缓存污染攻击（proxy cache poisoning attacks）等问题。

一、代理缓存污染攻击

下面摘自2010年关于安全的一段讲话。其中提到了代理服务器在协议实现上的缺陷可能致使的安全问题。猛击出处。

“We show, empirically, that the current version of the WebSocket consent mechanism is vulnerable to proxy cache poisoning attacks. Even though the WebSocket handshake is based on HTTP, which should be understood by most network intermediaries, the handshake uses the esoteric “Upgrade” mechanism of HTTP [5]. In our experiment, we find that many proxies do not implement the Upgrade mechanism properly, which causes the handshake to succeed even though subsequent traffic over the socket will be misinterpreted by the proxy.”

[TALKING] Huang, L-S., Chen, E., Barth, A., Rescorla, E., and C. Jackson, "Talking to Yourself for Fun and Profit", 2010,

在正式描述攻击步骤以前，咱们假设有以下参与者：

攻击者、攻击者本身控制的服务器（简称“邪恶服务器”）、攻击者伪造的资源（简称“邪恶资源”）
受害者、受害者想要访问的资源（简称“正义资源”）
受害者实际想要访问的服务器（简称“正义服务器”）
中间代理服务器

攻击步骤一：

攻击者浏览器向 邪恶服务器 发起WebSocket链接。根据前文，首先是一个协议升级请求。
协议升级请求实际到达 代理服务器。
代理服务器 将协议升级请求转发到 邪恶服务器。
邪恶服务器 赞成链接，代理服务器 将响应转发给 攻击者。

因为 upgrade 的实现上有缺陷，代理服务器 觉得以前转发的是普通的HTTP消息。所以，当协议服务器 赞成链接，代理服务器 觉得本次会话已经结束。

攻击步骤二：

攻击者 在以前创建的链接上，经过WebSocket的接口向 邪恶服务器 发送数据，且数据是精心构造的HTTP格式的文本。其中包含了 正义资源 的地址，以及一个伪造的host（指向正义服务器）。（见后面报文）
请求到达 代理服务器 。虽然复用了以前的TCP链接，但 代理服务器 觉得是新的HTTP请求。
代理服务器 向 邪恶服务器 请求 邪恶资源。
邪恶服务器 返回 邪恶资源。代理服务器 缓存住 邪恶资源（url是对的，但host是 正义服务器 的地址）。

到这里，受害者能够登场了：

受害者 经过 代理服务器 访问 正义服务器 的 正义资源。
代理服务器 检查该资源的url、host，发现本地有一份缓存（伪造的）。
代理服务器 将 邪恶资源 返回给 受害者。
受害者 卒。

附：前面提到的精心构造的“HTTP请求报文”。

Client → Server:
POST /path/of/attackers/choice HTTP/1.1 Host: host-of-attackers-choice.com Sec-WebSocket-Key: <connection-key>
Server → Client:
HTTP/1.1 200 OK
Sec-WebSocket-Accept: <connection-key>
复制代码