[论文笔记]FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章来源:SIGIR’20 摘要 文章基于BERT提出了一个跨模态检索模型,该模型并不是一个通用的检索模型,主要用于电商领域时尚用品(Fashon)检索,作者是阿里巴巴。 框架图 文章框架和之前基于transformer的文章网络架构大致相同, 输入 输入文本和图片,对文本取token对图片取patch 输出 [CLS]用来判断文本和图片是否对齐 训练任务 遮挡图片(文本)预测图片(文本),预测文
相关文章
相关标签/搜索