斯坦福CS224n NLP课程【十三】——卷积神经网络

从RNN到CNN 只能捕获上下文左侧的短语,RNN无法利用未来的特征预测当前单词,就算是bi-RNN,也不过是双向重蹈覆辙而已。经常把过多注意力放到最后一个单词上。 比如,如果只想得到my birth的向量,RNN就无能为力了,因为它捕捉的是从左到右的“上文”。与此对应,softmax也是加在最后一个单词上的 CNN的解决思路说来也很简单粗暴,那就计算相邻的n-gram,不管它到底是不是真正的短语
相关文章
相关标签/搜索