7篇ICLR论文，遍览联邦学习最新研究进展 - 知乎

本篇提早看重点关注 ICLR 2020 中关于联邦学习（Federated Learning）的最新研究进展。

机器之心分析师网络，做者：仵冀颖，编辑：H4O。git

2020 年的 ICLR 会议原计划于4 月 26 日至 4 月 30 日在埃塞俄比亚首都亚的斯亚贝巴举行，这本是首次在非洲举办的顶级人工智能国际会议，但受到疫情影响，ICLR 2020 被迫取消线下会议改成线上虚拟会议。今年的 ICLR 论文接受状况以下：共计接收 679 片文章，其中：poster-paper 共 523 篇、Spotlight-paper（焦点论文）共 107 篇、演讲 Talk 共 48 篇，另有被拒论文（reject-paper）共计 1907 篇，接受率为 26.48%。算法

本篇提早看重点关注 ICLR 2020 中关于联邦学习（Federated Learning）的最新研究进展。联邦学习是一种在分布式网络中实现的客户端本地存储数据并训练局部模型、中央服务器汇聚各客户端上载数据后训练构建全局模型的分布式机器学习处理框架。联邦学习可以有效解决分布式网络中两方或多方数据使用实体（客户端）在不贡献出数据的状况下的数据共同使用问题，同时保证全局模型可以得到与数据集中式存储相同的建模效果。关于联邦学习，机器之心也有过相关的进展分析报道。数据库

在 ICLR 2020 的接受论文中，共有 7 篇文章与联邦学习相关，其中 2 篇为演讲 Talk的文章，5 篇为poster-paper。本文从中选择 3 篇进行分析，分别聚焦的是联邦学习的整体优化目标设置、全局模型构建方法以及数据特征对齐问题，具体为：跨域

Poster Paper安全

Fair Resource Allocation in Federated Learning
Differentially Private Meta-Learning
DBA: Distributed Backdoor Attacks against Federated Learning
Generative Models for Effective ML on Private, Decentralized Datasets
Federated Adversarial Domain Adaptation

Talk服务器

On the Convergence of FedAvg on Non-IID Data
Federated Learning with Matched Averaging

1、Fair Resource Allocation in Federated Learning网络

论文连接：https://arxiv.org/pdf/1905.10497v1.pdf架构

联邦学习的目标是经过最小化经验风险函数，使得模型可以拟合由若干网络设备中收集到的数据。一般状况下，联邦学习网络中的设备数量很大，从数百个到数百万个不等。这种简单直接的拟合操做可能会形成最终拟合的模型适合于一些设备，而在另一些设备中不适用的问题。此外，不一样设备中的数据存在大小不一样、分布特征不一样等异质性问题。这篇文章所要探讨的问题就是：是否能够设计一种优化方法来确保联邦学习模型的性能（如准确度）公平地分布在各个设备之间？框架

受无线网络公平资源分配工做的启发，本文提出了一种解决联邦学习中公平问题的优化目标算法 q-FFL（q-Fair Federated Learning）。q-FFL 经过引入 q 参数化的权重，实现了对不一样设备损耗的从新加权计算，使得损耗较高的设备具备较高的相对权重，从而减少准确度分布方差，实现准确度更公平的分布。q-FFL 无需手工调整公平性约束，它构建的是一个灵活的框架，在该框架中能够根据所需的公平性自动调整目标。此外，本文提出了一种轻量级且可扩展的分布式 q-FFL 解决方法：q-FedAvg，该方法考虑了联邦学习架构的重要特征，例如通讯效率和设备的低参与性等。dom

方法描述

经典联邦学习一般是最小化如下目标函数：

其中，m 表示设备数量，F_k 是各个客户端的局部目标函数，p_k 为客户端对应的权重。局部目标函数的优化处理过程为：

其中，n_k 为第 k 个客户端局部样本数据数量，能够令 p_k=n_k/n，n 为整个联邦学习网络的数据集中符合经验最小化目标的样本总数。传统方法经过如下方式实现全局目标最优化：每一轮选择几率与 n_k 成正比的设备子集执行这些本地更新方法经过在每一个设备上本地运行可变数量的迭代的优化器（例如 SGD）来实现灵活高效的通讯。经典联邦学习（FedAvg）的优化流程以下：

FedAvg 的优化过程会引入不一样设备之间的不公平性。例如，所学习的模型可能偏向具备数据量大的设备，或者偏向于（一般是对设备加权）常用的一组设备等等。为了讨论如何解决联邦学习框架的不公平性问题，做者首先定义了什么是联邦学习中的公平性。

公平性定义：能够经过下面的方法衡量两个模型 w 和 w~的公平性，若是模型 w 在 m 个设备上的性能方差 {a_1，...，a_m} 小于模型 w~在 m 个设备上的性能方差，则认为模型 w 更公平，即

从公平性定义的角度出发，解决 FedAvg 中存在的不公平性的问题的一个很直观的办法就是从新对目标进行加权，即将较高的权重分配给性能较差的设备，以减少模型的准确度分布方差。此外，从新加权的处理必须是动态完成的，由于设备的性能取决于所训练的模型，这是没法进行先验评估的。给定非负代价函数 F_k 和参数 q>0，定义 q-FFL 目标以下：

其中 (F_k).^(q+1) 表示 F_k 的 q+1 次幂，q 为调整所但愿施加的公平性的权重参数。根据公平性定义，较大的 q 意味着 q-FFL 的目标强调（赋予较大权重）具备较高局部经验损失的设备 F_k(w)，从而减小训练准确度分布的方差以及保证公平性。当 q 足够大时，F_q(w) 就退化为经典的 min-max 问题，此时，性能最差（最大损耗）的设备将会控制主导目标。

本文做者首先提出了一种公平但效率较低的方法 q-FedSGD，以说明在解决 q-FFL 问题时使用的主要技术，以后，经过考虑联邦学习的关键属性（例如本地更新方案），做者提供了一种更有效的解决方法 q-FedAvg。首先，q-FedSGD 是对经典的联合小批量 SGD（FedSGD）方法的扩展，其中使用动态步长替代了 FedSGD 中使用的常规固定步长。在 q-FedSGD 的每一个步骤中，选择设备的一个子集，对于该子集中的每一个设备 k，在当前迭代中计算其∇F_k 和 F_k 并将其传送到中央服务器，此信息用于调整权重，以收集整合来自每一个设备的更新。具体算法以下：

在经典联邦学习方法中，在设备本地使用局部随机解算器（而不是批处理）可以改进本地计算与通讯方面的灵活性，例如最著名的 FedAvg。然而，简单地在使用 q-FFL 目标的 q-FedSGD 中引入局部随机结算器是不成立的。这是因为当 q>0 时，不能使用局部 SGD 计算 (F_k)^(q+1)。做者提出将 q-FedSGD 步骤中的局部函数的梯度∇F_k 替换为经过在设备 k 上本地运行 SGD 得到的局部更新矢量，从而实现基于 q-FFL 目标的 FedAvg，即 q-FedAvg。做者的详细分析以下：优化 F_k 和优化 (F_k)^(q+1) 是等价的。若是经过简单的平均来组合这些更新，相似于 FedAvg，它将优化（1）而不是（2）。相似于 q-FedSGD，本文使用由下式推导获得的权重组合本地更新。若是非负函数 f 具备常数 L 的 Lipchitz 梯度，则对于任意 q≥0 和任意点 w，可获得：

左式计算获得的权重是 w 点位置处梯度的局部 Lipchitz 常数的上界

在 q-FedAvg 的每一个步骤中，选择设备的一个子集，对于该子集中的每一个设备 k，在当前迭代中计算其局部更新向量并将局部更新向量传送到中央服务器，此信息用于调整权重，以收集整合来自每一个设备的更新。具体算法以下：

实验分析

本文基于经典联邦学习的合成数据库和非合成数据库进行实验，实验中同时使用凸模型和非凸模型，在 TensorFlow 中实现全部代码，以一个服务器和 m 个设备模拟一个联邦学习网络。

图 1 给出了在每一个数据集的 5 个随机抽取的数据中平均的两个目标（q = 0 和 q> 0 的调整值）的最终测试准确度分布。虽然平均测试准确度保持一致，但 q> 0 的目标可以产生更集中（即更公平）的测试准确度分布，且方差较小。特别的，在保持大体相同的平均准确度的同时，q-FFL 将全部设备上的准确度方差平均下降了 45％。

图 1. q-FFL 使得测试准确度分布更加公平

使用本文提出的联邦学习框架须要解决一个问题：如何在 q-FFL 目标中调整 q，从而容许框架灵活选择 q 以实现减少准确度分布方差和提升平均准确度之间的权衡。一般，能够根据可得到的数据/应用程序和所需的公平性来调整此值。特别地，在实践中，一种合理的方法是并行运行具备多个 q 的算法（详见 q-FedAvg 的算法流程），以得到多个最终全局模型，而后经过验证数据性能（例如准确度）从中进行选择。在这个过程当中，联邦学习网络中的每一个设备不只能够今后过程当中选择一个最佳 q，还能够根据其验证数据选择特定于设备的模型。表 1 中显示了这种针对特定设备的策略的性能改进。在表 1 中给出的实验的训练过程当中，会独立维护多个全局模型（对应于不一样的 q）。尽管这增长了额外的本地计算和每轮的通讯负载，但使用这种特定于设备的策略同时提高了最差 10% 准确度（Worst 10%）和最佳准确度（Best 10%）的设备准确度。图 2 给出 q-FFL 与均匀采样方案的准确度比较，在测试准确性方面 q-FFL 给出了更公平的解决方案。

表 1. 同时运行多个 q 的 q-FFL 的效果

图 2. q-FFL（q&gt; 0）与均匀采样的准确度比较

最后，做者对比了 q-FedSGD 和 q-FedAvg 的效率。在每一个通讯回合中，q-FedAvg 在每一个所选设备上运行一个 epoch 的本地更新，而 q-FedSGD 则是基于本地训练数据运行梯度降低（SGD）。图 3 的结果显示，在大多数状况下使用 q-FedAvg 的本地更新方案收敛速度比 q-FedSGD 快。与 q-FedSGD 相比，在合成数据集上 q-FedAvg 收敛速度较慢，做者分析这多是因为当存储在各个设备中的本地数据分布高度异构时，本地更新方案可能会形成本地模型与初始全局模型相距太远，进而影响收敛。

图 3. 对于固定目标（即相同的 q），q-FedAvg（Algorithm 3），q-FedSGD（Algorithm 2）和 FedSGD 的收敛性

文章小结

在无线网络中公平资源分配策略的启发下，本文提出了一种联邦学习的优化目标 q-FFL，目的是鼓励在联邦学习中实现更公平的准确度分配，此外本文还提出了一种高效且可扩展的方法 q-FedAvg，q-FedAvg 适用于使用新优化目标的联邦学习优化框架。

2、Federated Adversarial Domain Adaptation

论文连接：https://arxiv.org/abs/1911.02054

联邦学习是一种分散学习方法，它使多个客户机可以协做学习一个机器学习模型，同时将训练数据和模型参数保存在本地设备上。联邦学习提升了在分布式设备（如移动电话、物联网和可穿戴设备等）网络中进行机器学习的数据隐私性和效率。自提出联邦学习框架以来，研究人员陆续提出了不少模型/方法，包括更新机器学习模型的安全聚合方案、支持多客户端联邦学习的隐私保护协同训练模型等，可是这些方法大都忽略了如下事实：每一个设备节点上的数据都是以非独立同分布（non-i.i.d）的方式收集的，所以节点之间存在域迁移的问题。例如，一台设备可能主要在室内拍摄照片，而另外一台设备主要在室外拍摄照片。这种域迁移（domain shift）问题，形成使用联邦学习训练获得的模型很难推广到新设备。为了解决联邦学习中的 Non-IID 问题，一些方法引入联邦多任务学习，它为每一个节点学习一个单独的模型，或者是提出隐私保护环境下的半监督联邦转移学习算法。这些算法通常采用的都是有监督/半监督的方式。

无监督域适应（Unsupervised Domain Adaptation，UDA）的目的是将从标记的源域学习到的知识迁移到未标记的目标域中。经典 UDA 方法包括：基于差别的方法（discrepancy-based methods）、基于重构的 UDA 模型、基于对抗的方法等，例如能够经过对抗性训练，在源域和目标域之间调整基于 CNN 的特征提取/分类器。在联邦学习架构中，数据存储在各个客户端本地而不能共享，这就致使经典的 UDA 方法都不适用，由于这些方法须要访问标记的源数据和未标记的目标数据。本文主要解决的问题是，在联邦学习架构下，在没有用户监督的状况下，将知识从分散节点转移到具备不一样数据域的新节点的问题，做者将该问题定义为：无监督联邦域适应（Unsupervised Federated Domain Adaptation，UFDA）。

本文提出了一种解决 UFDA 问题的方法---联邦对抗域适应（Federated Adversarial Domain Adaptation，FADA）方法，该方法可以实如今不一样的设备节点中学习到的表示与目标节点的数据分布相一致。FADA 是指：在联邦学习的架构中使用对抗性适应技术，经过在每一个源节点上训练一个模型并经过源梯度（source gradients）的聚合来更新目标模型，同时保护数据隐私、减小域迁移。此外，本文还设计了一个动态注意力模型来应对联邦学习中不断变化的收敛速度，具体见图 1。

图 1.（a）本文针对 UFDA 问题提出了 FADA，在 FADA 中，不一样域之间的数据不可共享，分别在每一个源域上训练模型，并使用动态注意力机制汇总它们的梯度以更新目标模型；（b）FADA 使用对抗域对齐（红线）和特征分离器（蓝线）来提取域不变特征。

图 1（b）中提到 FADA 使用对抗域对齐和特征分离器来提取域不变特征。关于提取域不变特征的问题，主要是指深度神经网络可以在多个隐藏因素高度纠缠的状况下提取特征。学习分离表示有助于去除不相关和特定领域的特征，从而只对数据变化的相关因素建模。为此，最近的研究探索了利用生成性对抗网络（GANs）和变分自编码（VAEs）学习可解释表示以及领域不变特征。在 FADA 中引入了一种利用对抗性训练过程从领域特征中分离领域不变特征的方法。此外，经过引入最小化域不变特征和域特定特征之间的相互信息，以加强特征分离。

方法介绍

令 D_S 和 D_T 分别表示输入空间 X 上的源和目标分布，以及真实的标记函数 g：X→{0,1}。假设函数 h：X→{0,1}，其偏差为实地标记函数 g，h 在 D_s 上的风险记为：

两个分布 D 和 D』之间的 H-散度定义为：

其中 H 是输入空间 X 的假设类，A_H 表示 X 的子集的集合，这些子集是 H 中某些假设的支持。对称差空间 H∆H 定义为:

⊕表示 XOR 操做。将在源和目标上实现最小风险的最优假设表示为：

以及 h*的偏差为：

令 H 为 VC 维 d 的假设空间，D_S^和 D_T^为由 DS 和 DT 提取的大小为 m 的样本的经验分布。对于每一个 h∈H，在样本选择上的几率至少为 1-δ：

定义 UFDA 中源域和目标域分别为

在联邦学习的域自适应系统中，D_S 分布在 N 个节点上，而且数据在训练过程当中不可共享。经典的域自适应算法旨在最大程度地下降目标风险

可是，在 UFDA 系统中，出于安全和隐私的缘由，一个模型没法直接访问存储在不一样节点上的数据。为了解决这个问题，本文提出为每一个分布式源域学习单独的模型 h_S= {h_Si}，目标假设 h_T 是 h_S 参数的集合。而后，能够得出如下偏差范围：

其中λ_i 是 D_Si 和 T 的混合物的最优假设风险，而 S〜则是大小为 Nm 的源样本的混合物。

该偏差范围证实了权重α和差别 d H∆H（D_S，D_T）在 UFDA 中的重要性，受此启发，本文提出了动态注意力模型来学习权重α和联合对抗性对齐，以最大程度地减小源域和目标域之间的差别。

一、动态注意力机制

在联邦学习的域自适应系统中，不一样节点上的模型具备不一样的收敛速度。此外，源域和目标域之间的域迁移是不一样的，从而致使某些节点可能对目标域没有贡献甚至是负迁移。本文提出动态注意力机制，其原理是增长那些梯度对目标域有益的节点的权重，并限制那些梯度对目标域有害的节点的权重，利用差距统计数据来评估目标特征 f^t 在无监督聚类算法（K-Means）中的聚类程度，具体的，差距统计计算为：

其中，C1，C2，...，Ck 为聚类，其中 Cr 表示聚类 r 中的观测指标，而 nr = | Cr |。直观上，较小的差距统计值表示要素分布具备较小的类内方差。经过两次连续迭代之间的差距统计量增益来测量每一个源域的贡献：

其中，p 表示训练步骤。该公式表示在创建目标模型以前和以后能够改进多少聚类。来自源域的梯度上的掩码定义为：

二、联合对抗对齐

在联邦学习框架中存在多个源域，而且数据以隐私保护的方式存储在本地，这意味着没法训练能够同时访问源域和目标域的单个模型。为了解决此问题，本文提出了联合对抗对齐，联合对抗对齐将优化分为两个独立的步骤：特定于域的局部特征提取器和全局鉴别器。（1）针对每一个域，对应于 Di 训练一个本地特征提取器 Gi，以及针对 Dt 训练获得 Gt；（2）对于每一个源－目标域对（Di，Dt），训练一个对抗性域标识符 DI 来以对抗性的方式对齐分布：首先训练 DI 以肯定特征来自哪一个域，而后训练生成器（Gi，Gt）来混淆 DI。须要注意的是，D 仅可访问 Gi 和 Gt 的输出向量，而不会违反 UFDA 设置。给定第 i 个源域数据 X^Si，目标数据 X^T，DI_s 的目标定义以下：

在第二步中，L_advD 保持不变，可是 L_advG 更新如下目标：

三、表征分离

本文采用对抗性分离（Adversarial Disentanglement）来提取域不变特征。如图 1（b）所示，分离器 Di 将提取的特征分为两个分支。首先分别基于 f_di 和 f_ds 特征训练 K 路分类器 Ci 和 K 路类别标识符 CI_i 正确地预测具备交叉熵损失的标签。目标为：

其中 f_di 和 f_ds 分别表示域不变和域特定特征。在下一步中，冻结类标识符 CI_i，仅训练特征分解器经过生成特定于域的特征 f_ds 来混淆类标识符 CI_i，如图 1 所示。这能够经过最小化预测类别分布的负熵损失来实现。目的以下：

特征分离能够经过保留 f_di、消除 f_ds 来促进知识迁移。为了加强分离，最小化域不变特征和域特定特征之间的相互信息：

尽管互信息是跨不一样分布的关键度量，但互信息仅适用于离散变量。本文采用互信息神经估计器（Mutual Information Neural Estimator，MINE）利用神经网络来估计连续变量的互信息：

为了不计算积分，本文利用蒙特卡洛积分来计算估计值

其中（p，q）从联合分布中采样，q』从边际分布中采样，T（p，q，θ）是由θ参数化的神经网络，用于估计 P 和 Q 之间的互信息。域不变和域特定的特征被转发给具备 L2 损失的重构器以重构原始特征，同时保持表征的完整性，如图 1（b）所示。能够经过调整 L2 丢失和互信息丢失的超参数来实现 L2 重建和互信息的平衡。

四、优化

本文模型以端到端的方式训练。使用随机梯度降低训练联邦对齐和表征分离组件。联合对抗性对准损失和表征分离损失与任务损失一块儿被最小化。详细的训练过程在算法 1 中给出：

实验分析

为了更好地探索模型中不一样组成部分的有效性，本文提出了三种不一样的剥离方法，包括：模型 I，具备动态关注度；模型 II，I +对抗性对齐；模型 III，II +表征分离。

本文首先基于 Digit-Five 数据库进行实验。Digit-Five 是由五个数字识别基准数据库组成的集合，这五个数据库分别是：MNIST，合成数字，MNIST-M，SVHN 和 USPS。在本文实验中，轮流将一个域（来自于其中一个数据库）设置为目标域，将其他域设置为分布式源域，从而生成五项迁移任务。本文将 FADA 与流行的域适应基准模型进行比较，包括：域对抗神经网络（DANN），深度适应网络（DAN），自动域对齐层（AutoDIAL）和自适应批归一化（AdaBN）等。具体而言，DANN 经过梯度反转层将源域和目标域之间的域差别最小化。DAN 应用多内核 MMD 损失以在「再生核希尔伯特空间」中将源域与目标域对齐。AutoDIAL 在深层模型中引入了域对齐层，以将源特征分布和目标特征分布与参考分布进行匹配。AdaBN 应用批处理规范化层来促进源域和目标域之间的知识迁移。在进行基准实验时，本文分别使用原模型的做者提供的代码并修改原始设置以适合联邦域对抗域适应设置（即每一个域都有本身的模型），用 f-DAN 和 f-DANN 表示。此外，为了说明 UFDA 难以经过单一模型访问全部源数据的困难，本文还执行了相应的多源域适应实验（共享源数据）。实验结果列于表 1。从表 1 的结果能够得出如下结论：（1）模型 III 的平均准确度达到 73.6％，明显优于基线模型；（2）模型 I 和模型 II 的结果证实了动态注意力和对抗性对准的有效性；（3）联合域适应显示的结果比多源域适应弱得多。

表 1.「Digit-Five」数据库的准确度（％）

为了进一步了解 FADA 的特征表示性能，图 2 给出了不一样模型获得的特征表示的 t-SNE 嵌入。与 f-DANN 和 f-DAN 相比，FADA 获得的特征嵌入具备较小的类内方差和较大的类间方差，这代表 FADA 可以生成所需的特征嵌入并可以提取跨域的不变特征。

图 2. 特征可视化：仅源特征的 t-SNE 图

表 2 中给出了在 Office-Caltech10 数据集上的实验结果，该数据集包含 Office31 和 Caltech-256 数据集共享的 10 个常见类别，以及包含四个域：Caltech（C），这是从 Caltech-256 数据集采样的；Amazon（A），这是从 http://amazon.com 收集的图像；Webcam（W）和 DSLR（D），这是由网络摄像头以及办公环境下的数码单反相机拍摄的图像。由表 2 能够得出如下观察结论：（1）本文提出的 FADA 模型使用 AlexNet 能够达到 86.5％的准确度，使用 ResNet 能够达到 87.1％的准确度，优于基线模型。（2）当选择 C，D，W 做为目标域时，全部模型的性能都类似，可是当选择 A 做为目标域时，各个模型的性能都较差。这多是由较大的域差别引发的，由于 A 中的图像是从 http://amazon.com 收集的，而且包含白色背景。

表 2. Office-Caltech10 数据库的准确度（％）

亚马逊评论（Amazon Review）数据集是专门应用于文本跨域情感分析的测试数据库，即肯定评论的情绪是正面仍是负面。该数据集包含来自 http://amazon.com 用户的针对四个流行商品类别的评论：书籍（B），DVD（D），电子产品（E）和厨房用具（K）。本文利用 400 维词袋表示法及彻底链接的深度神经网络进行实验，实验结果见表 3。从表 3 结果中能够得出两个主要观察结论：（1）FADA 模型不只对视觉任务有效，将其应用于语言任务也表现出了较好的性能。（2）从模型 I 和 II 的结果能够观察到动态注意力和联邦对抗的对齐方式对提升性能颇有帮助。

表 3.「Amazon Review」数据库的准确度（％）

最后为了证实动态注意力的有效性，本文给出了消融（ablation）研究分析。表 4 给出了 Digit-Five，Office-Caltech10 和 Amazon Review 基准测试的结果。在没有应用动态注意力模型的状况下，大多数实验的性能都会降低，所以动态注意力模块对于 FADA 是很是重要的。使用动态注意力模型可以有效应对联邦学习中不断变化的收敛速度，即不一样的源域具备本身的收敛速度的问题。另外，当特定域和目标域之间的域迁移较小时，它将增长特定域的权重，相反，则下降权重。

表 4. 消融研究结果

文章小结

在本文中，做者定义了无监督联邦域适应（UFDA）问题，并给出了对 UFDA 的理论推广。此外，本文提出了一种称为-联邦对抗域适应（FADA）的联邦学习模型，经过动态注意力模式可以有效地将从分布式源域学到的知识迁移到未标记的目标域。

3、Federated Learning with Matched Averaging

论文连接：http://arxiv.org/abs/2002.06440

联邦学习容许边缘设备协做学习共享模型，同时将训练数据保留在本地设备中，从而实现将模型训练与数据存储在云中的需求分离开来。本文针对卷积神经网络（CNN）和长短时间记忆网络（LSTM）等现代神经网络结构的联邦学习问题，提出了一种联邦匹配平均（Federated Matched Averaging，FedMA）算法。FedMA 经过匹配和平均具备类似特征提取特征的隐藏元素（即卷积层的通道；LSTM 的隐藏状态；彻底链接层的神经元等）以层的方式构建共享全局模型。

经典联邦学习 FedAvg 的一个缺点是直接对模型参数进行加权平均，可能会对模型性能产生严重的不利影响，并显著增长通讯负担，而这一问题主要是因为神经网络（NN）参数的置换不变性而致使的。好比，模型训练后的有些参数会在不一样的变体中处于不一样的位置，所以，直接对模型进行基于参数位置的加权平都可能使得某些参数失效。本文所提出的 FedMA 引入贝叶斯非参数方法以解决数据中的异质性问题。

方法介绍

本文首先讨论神经网络（NN）架构的置换不变性，并在 NNs 的参数空间中创建平均的概念。首先从最简单的单层隐藏层全链接 NN 开始介绍，以后针对深度架构、卷积和循环架构进行分析。

一、全链接架构的置换不变性

基本的全链接（FC）NN 能够表示为

在不失通常性的前提下，上式省略了误差以简化表示，σ是非线性的（entry-wise）。扩展上式，获得

其中 i·和·i 分别表示第 i 行和第 i 列，L 是隐藏单元的数目。进一步，将 FC 的置换不变性写做：

置换矩阵是一个正交矩阵，当应用于左侧时，它做用于行，而应用于右侧时，则做用于列。假设 {W1，W2} 是最佳权重，那么从两个同质数据集 X_j，X_j』训练得到的权重分别为 {W_1Π_j，(Π_j)^TW_2} 和 {W_1Π_j』，(Π_j』)^TW_2}。如今能够很容易地看出为何在参数空间中进行简单的直接平均处理是不合适的。

令 w_jl 表示数据库 j 中学习获得的第 l 个神经元（W(1)Π_j 中的第 l 列）。θi 表示全局模型中的第 i 个神经元，c(·,·) 表示一对神经元之间的类似函数。如下优化问题的解决方案是所需的置换：

给定 J 个客户端提供的权重 {W_j,1，W_j,2}，计算获得联邦神经网络权重：

基于上式与最大二分匹配问题之间的关系，本文将此方法称为匹配平均（matched averaging）。若是 c（·，·）是欧式距离的平方，则能够获得相似于 k-means 聚类的目标函数，固然，该目标函数对「聚类分配」π 附加有额外的约束，以确保它们可以造成置换矩阵。

二、关键（深度、卷积、循环）架构的置换不变性

在介绍卷积和递归架构以前，首先讨论深度 FC 中的置换不变性和相应的匹配平均方法。

在 FC 置换不变性的基础上扩展，获得递归定义的深度 FC 网络

其中，n=1,...,N 表示层索引，π_0 是按照输入特征 x=x_0 排序的无歧义表征，π_N 表示输出类中对应的表征。σ(·) 为身份表征函数（或者是 softmax 函数，若是想要的是几率而不是逻辑值）。当 N=2 时，恢复获得一个与 FC 置换不变性同样的单隐藏层变量。为了对从 J 个客户机得到的深层 FCs 进行匹配平均，须要为每一个客户端的每一层找到置换。然而任何连续的中间层对内的置换都是耦合的，这是一个 NP-hard 的组合优化问题。本文考虑递归（层内）匹配平均方法：假设有 {∏_(j,n-1)}，将 {(∏_(j,n-1))^T W_j,n} 插入上式中，从而找到 {∏_(j,n)} 并移动到下一层。

与神经元不一样，卷积 NN（CNNs）的不变性体如今通道（channel）不变性上。令 Conv（x，W）表示输入 x 的卷积运算，W 为权重。对权重的输出维度应用任何置换，以及对后续层的输入通道维度应用相同的置换，都不会改变相应的 CNN 的前向反馈。CNNs 的元素表示为：

上式容许在通道内进行池操做。为了对第 n 个 CNN 层应用匹配平均，按照公式（2）转换输入形式为：

其中 D 是 (∏_(j,n-1))^T W_j,n 的展平后的维度数。相似于 FCs，能够递归地在深度 CNNs 上执行匹配平均。

递归结构（RNN）中的置换不变性与隐藏状态的顺序有关。递归结构与 FC 结构类似，主要区别在于隐藏层到隐藏层的权重 H∈ R^(L×L) 排列不变性，其中，L 是隐藏状态的数目。隐藏状态的排列同时影响 H 的行和列。对于一个经典 RNN h_t= σ(h_t−1 H + x_t W)，其中 W 是隐藏权重的输入。为了解释隐藏态的置换不变性，对于任何 t，h_t 的全部维度都应该以相同的方式进行置换，即

为了匹配 RNN，须要将欧氏距离类似的两个客户端的隐藏权重与隐藏权重对齐。本文的匹配平均 RNN 解是利用公式在输入到隐藏层的权重 {W_j} 中来找到 {∏_j}，隐藏层权重输入的计算方式与以前一致，联邦隐藏层到隐藏层的权重 H 计算为

LSTMs 有多个单元格状态，每一个状态都有其各自的隐藏到隐藏的和输入到隐藏的权重。在外匹配平均过程当中，当计算置换矩阵时，将输入到隐藏权重的信息叠加到 S D×L 权重矩阵（S 是单元状态数，D 是输入维数，L 是隐藏状态数）中，而后如前所述平均全部权重。LSTMs 一般也有一个嵌入层，将这一层看成一个 FC 层来处理。最后，以相似于深度 FCs 的递归方式处理深度 LSTMs。

三、FedMA 的完整算法流程

首先，数据中心（中央服务器）只从客户端收集第一层的权重，并执行前面描述的单层匹配以得到联邦模型的第一层权重。而后数据中心（中央服务器）将这些权重广播给客户端，客户端继续训练其数据集上的全部连续层，同时保持已经匹配的联邦层冻结。而后，将此过程重复到最后一层，根据每一个客户端数据的类比例对其进行加权平均。FedMA 方法要求通讯轮数等于网络中的层数。具体流程见算法 1：

实验分析

图 1 展现了层匹配 FedMA 在更深的 VGG-9CNN 和 LSTM 上的性能。在异构环境中，FedMA 优于 FedAvg、FedProx（LeNet 和 LSTM 为 4，VGG-9 为 9）和其余基线模型（即客户端我的 CNN 及其集成）训练获得的 FedProx。

图 1. 基于 MNIST 的 LeNet；基于 CIFAR-10 数据集的 VGG-9；基于 Shakespeare 数据集的 LSTM 上有限通讯量的各类联邦学习方法的比较：（a）同构数据划分（b）异构数据划分

FedMA 的优势之一是它比 FedAvg 更有效地利用了通讯轮次，即 FedMA 不是直接按元素平均权重，而是识别匹配的卷积滤波器组，而后将它们平均到全局卷积滤波器中。图 2 给出了可视化的一对匹配的本地滤波器、聚合的全局滤波器和 FedAvg 方法在相同输入图像上返回的滤波器所生成的表示。匹配滤波器和用 FedMA 生成的全局滤波器可以提取输入图像的相同特征，即客户端 1 的滤波器 0 和客户端 2 的滤波器 23 提取马腿的位置，而相应的匹配全局滤波器 0 也提取马腿的位置。对于 FedAvg，全局滤波器 0 是客户端 1 的滤波器 0 和客户端 2 的滤波器 0 的平均值，这明显篡改了客户端 1 的滤波器 0 的腿部提取结果。

图 2. 由局部训练模型、FedMA 全局模型和 FedAvg 全局模型的第一卷积层生成的表示

最后，做者研究了 FedMA 的通讯性能。经过将 FedMA 与 FedAvg、FedProx 进行比较，在数据中心（中央服务器）和客户端之间交换的总消息大小（以千兆字节为单位）和全局模型实现良好效果所需的通讯轮数（完成一次 FedMA 过程须要的轮数等于本地模型中的层数）测试数据的性能。此外，还比较了集成方法（Assemble）的性能。本文在 VGG-9 本地模型的 J=16 客户端的 CIFAR-10 数据库和 1 层 LSTM 的 J=66 客户端的 Shakespeare 数据库上评估了异构联邦学习场景下的全部方法。实验肯定了 FedMA、FedAvg 和 FedProx 容许的总通讯轮数，即 FedMA 为 11 轮，FedAvg 和 FedProx 分别为 99/33 轮，用于 VGG-9/LSTM 实验。FedMA 在全部状况下都优于 FedAvg 和 FedProx（图 3），当在图 3（a）和图 3（c）中将收敛性做为消息大小的函数进行评估时，它的优点尤为明显。

图 2. 两种联合学习场景下各类方法的收敛速度：在 CIFAR-10 上训练 VGG-9，J=16 个客户端；在 Shakespeare 上训练 LSTM，J=66 个客户端

文章小结

本文提出了 FedMA----一种为现代 CNNs 和 LSTMs 体系结构设计的分层联邦学习算法，它考虑了神经元的排列不变性，并实现了全局模型大小的自适应变化。本文证实了 FedMA 能够有效地利用训练后的局部模型，这也是联邦学习算法和架构主要考虑的问题。在后续工做中，做者考虑利用近似二次分配解（Approximate Quadratic Assignment Solutions）的方法引入额外的深度学习构建块，例如剩余链接和批处理规范化层，从而进一步改进 LSTMs 的联邦学习效果。此外，做者提出，探索 FedMA 的容错性并研究其在更大数据库上的性能很是重要，特别是针对那些即便在数据能够聚合的状况下也没法进行有效训练的数据库。

做者介绍：仵冀颖，工学博士，毕业于北京交通大学，曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理，现从事电子政务领域信息化新技术研究工做。主要研究方向为模式识别、计算机视觉，爱好科研，但愿能保持学习、不断进步。

关于机器之心全球分析师网络 Synced Global Analyst Network

机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里，已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家，利用本身的学业工做之余的闲暇时间，经过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享本身的研究思路、工程经验及行业洞察等专业知识，并从中得到了自身的能力成长、经验积累及职业发展。

感兴趣加入机器之心全球分析师网络？提交申请：http://jiqizhixin.mikecrm.com/rg2RY52