阿里few shot learning文章的个人理解

先贴结构图: 1、每次C类,每类K样本,剩下的是测试集。 2、encoder层是BiLSTM+attention,得到编码向量,假设隐含层个数是96个,句子长度是30,暂不考虑batch_size,那么每个字的隐含层就是1*192向量,整个H就是30*192,那么attention的最后输出就是一个1*192的向量(计算公式如下,权重矩阵W是30*192的矩阵)。                
相关文章
相关标签/搜索