Federated Learning for Vision-and-Language Grounding Problems

转载自此处 文章背景 这篇文章的背景是这样的,首先我的每个客户端输入的都是图像,这些图像可以是不同类型的,作者在实验中是用了两个不同的数据集来表示这一点。其次是每个客户端的任务也可以是不同的,比如一部分做视觉问答,另一部分做图像描述。因为他们的任务不一样,所以传统的联邦学习方法就不适用了。作者的方法概括的说就是让服务端去学习一个对应于不同任务的图像表示。具体的我们看下面这张图,可以简单的分为三个阶
相关文章
相关标签/搜索