一个简单的英文自然语言处理流程

以细粒度情感分析为例,每条语句有三行:句子-aspect-情感极性,分为train和test两个数据集。 整体流程 tokennizer: 处理分词,以空格分开,建立word2id,id2word词典 embedding:查找预训练的词向量,将每个单词对应的词向量组成词典,未知词另作处理 填充语句:将训练和测试语句先转化为tokenid中的word2id,再padding到最大长度 然后就可以走模
相关文章
相关标签/搜索