经典分布式论文阅读：Parameter Server

时间 2019-11-07

标签经典分布式论文阅读 parameter server 栏目系统架构繁體版

原文原文链接

本文是李沐大神的Parameter Server论文的学习笔记，李沐大神在OSDI和NIPS上都发过文章，其中OSDI版本偏向于系统设计，而NIPS版本偏向于算法层面，本文显然是OSDI的文章。算法

本文提出了“参数服务器”的分布式架构来支持分布式机器学习。分布式机器学习主要面临如下挑战：缓存

访问参数消耗大量的网络带宽
不少机器学习算法都是串行的
容错能力很是重要

而本文中的框架给开发者带来两点优点：服务器

经过分解机器学习的组件，可让业务代码更加简洁
可以实现鲁棒、多功能、高性能的分布式机器学习算法

本系统主要有如下五个特色：网络

高效的通讯：使用了异步非阻塞通讯模型
灵活的一致性模型：能够容许系统设计人员手动权衡收敛率和系统效率
弹性的规模：可以在运行期间添加新节点
容错和耐久：能从故障中快速恢复，经过向量时钟保证行为的肯定性
易用：参数表示为向量和矩阵便于开发机器学习算法

系统的这些特性都是经过选择正确的系统技术，运用在机器学习算法中，以及修改机器学习适应系统来实现。在系统实现过程当中，主要面临如下挑战：架构

通讯：经过批量传输参数（向量片断、矩阵的行列而不是单个参数值）来提升通讯效率
容错：经过实时备份和热修复和实现

机器学习

机器学习须要从训练数据中学习模型，主要包含三个要素：特征提取、目标函数和学习。特征提取将原始训练数据转换为特征向量，不在本文赘述。学习的过程就是最小化目标函数从而得到模型。另外，在分布式机器学习任务中，训练数据量也一般是很是巨大的。框架

风险最小化

监督学习就是风险最小化的过程，例如最小化预测偏差。若是有个训练样本，每一个样本的特征向量为，对应的标签为，模型的参数为，目标函数为机器学习

F(w)=\sum_{i=1}^{n} \ell\left(x_{i}, y_{i}, w\right)+\Omega(w)

其中 $\ell\left(x_{i}, y_{i}, w\right)$ 为损失函数，定义了预测值和真实值之间的偏差， $\Omega(w)$ 为正则化项，用来防止模型过拟合。在参数服务器框架中能够采用分布式子梯度降低对目标函数进行最小优化异步

在分布式子梯度降低算法中，每一个工做节点只须要计算分配到的参数工做集对应的梯度，而后由服务节点完成聚合。模型的完整参数可能会十分巨大，工做节点在使用的时候会面临很大的负担，可是能够经过只保存用到的参数值便可。分布式

生成模型

另一种机器学习的形式为无监督学习，一般用来学习数据的自身结构。比较典型的就是话题模型：给一些文档，推断出每一个文档包含的话题。主题模型的挑战就是：关于当前文档如何生成的参数必须被共享。解决方法就是每一个工做节点只保存分配到的文档出现的词有关的参数便可。函数

架构

参数服务器系统由一个服务节点组和多个工做节点组构成。服务节点之间互相通讯来备份和迁移参数，服务管理节点负责维护服务节点元数据之间的一致性。一组工做节点运行一个应用程序，工做节点组中的调度节点负责任务的分配和监控。

参数服务器以命名空间的方式组织参数，模型的参数采用键值的形式保存。不一样的应用程序可能会共享命名空间，例如一个应用程序负责模型训练，另外一个应用程序负责模型推断。

范围推送和拉取

为提升带宽利用率，系统支持范围推送和拉取。令 $\mathcal R$ 为键范围，那么

w.push(R,dest)将中键范围在 $\mathcal R$ 中的参数推送到dest
w.pull(R,dest)从dest拉去中键范围在 $\mathcal R$ 中的参数

服务节点的用户定义函数

服务节点除了从工做节点聚合数据以外，也能够执行用户定义函数。这样一来，用户能够实现能够实现一些更加高级的优化算法。

异步任务和依赖

任务都是异步执行的：调用者发起一个任务以后，能够立刻执行其余运算。为了提升模型收敛率，能够设置某个任务执行完成后运行的依赖关系，设置任务依赖关系能够保证算法的逻辑。

灵活的一致性

工做节点能够并行执行分配的任务，可是可能会对学习算法的收率产生影响。系统效率和一致性之间的权衡关系取决于算法对于不一致的敏感程程度以及系统硬件能力，本框架提供了三种模式供设计者选择：

顺序一致：下一个任务必须在前一个任务完成以后才能执行
最终一致：全部任务一块儿开始
有界延迟：在 $\tau$ 时间以前开始的任务所有完成以后才开始任务

用户定义的过滤器

用户能够定义用户定义过滤器选择性地同步部分参数，例如用户能够之推送那些对模型参数有影响的梯度。

实现

向量时钟

为了支持任务依赖图和快速恢复，每一个键值对须要一个时钟。若是每一个个参数每一个参数都保存一个时间，若是有个节点，那么一共须要空间，更合理的方式是保存范围的时间。

消息

系统中传递的消息有多个在键范围 $\mathcal R$ 内的键值对以及对应的向量时钟：

\left[\operatorname{vc}(\mathcal{R}),\left(k_{1}, v_{1}\right), \ldots,\left(k_{p}, v_{p}\right)\right] k_{j} \in \mathcal{R} \text { and } j \in\{1, \ldots p\}

消息可能并无包含范围内所有的键值对，可是那些缺失的键值对的时钟照常更新。

若是每次迭代，工做节点的训练数据没有变化，那么键应该是不变的，那么可让接收放保存键缓存，而工做节点只须要发送值和键列表的哈希便可。另外，使用用户自定义过滤器能够进一步减小须要发送的键值对数量。

一致哈希

服务节点组中的节点使用分布式哈希表来保存模型参数。为了简化设计，系统使用直接映射，由服务管理节点统一管理。

副本和一致

每一个服务节点保存了逆时针方向k个邻居键范围内的参数的副本，做为这些副本的从节点。副本更新的方式能够是

在更新参数的时候，更新消息也会推送给保存副本的从节点
在完成参数参数聚合后推送给从节点

服务节点管理

当一个服务节点加入服务节点组以后：

服务管理节点分配给新节点一个键范围，新节点将做为这个范围的参数的主节点
节点获取这个范围内的参数并成为主节点，以及获取个额外范围的参数做为从节点
服务管理节点广播更改。其余节点会释放再也不须要本身管理的参数，而且叫没完成的任务交给新节点

新节点从某节点 $\mathcal S$ 拉取范围 $\mathcal R$ 内的参数的过程能够分为两步：

$\mathcal S$ 预先拷贝一份原先的所有键值对数据以及对应的时钟，当新节点下线时能够用来恢复；
$\mathcal S$ 再也不处理范围 $\mathcal R$ 内的消息，而且把预拷贝阶段的更改发送给新节点。

当节点N收到节点添加消息后，须要：

删除再也不须要本身管理的参数
从新发送未确认的消息，去掉不属于本身管理的内容

在某个服务节点下线后，服务管理节点须要把该节点管理的参数分配给其余节点。

工做节点管理

当一个新的工做节点被加入工做节点组后：

任务调度节点分配给一部分数据
节点从网络文件系统或者其余工做节点加载分配的训练数据，而后从服务节点拉取的参数
任务调度节点广播更改，其余工做结果可能须要释放一些重复的训练数据

当一个工做节点离线以后，能够选择从新分配或者无视，系统将这个选项交给设计者，由于：

当训练数据量很是大的时候，恢复一个工做节点的代价比恢复服务节点的代价大不少
丢失一小部分训练数据不会对最终模型形成太大影响

参考文献

Li, Mu, et al. "Scaling distributed machine learning with the parameter server." 11th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 14). 2014.
Li, Mu, et al. "Parameter server for distributed machine learning." Big Learning NIPS Workshop. Vol. 6. 2013.