paper:Hierarchical Attention Networks for Document Classification

又是一篇很久之前用到的模型,今天回来整理,发现分类的模型都好简单啊,然后看到模型基于GRU,总觉得有点不想看,因为带时间序列的训练起来太慢了,最进没怎么关注分类的新模型,不过我觉得CNN和transformer结构(self attention)的搭配应该是分类问题的趋势,不过这篇文章后面的attention效果可视化还是不错的~ 文章目录 1.模型概述 2.模型详情 2.1.Word Encod
相关文章
相关标签/搜索