文本预处理

文本预处理的工做 1 原始文本数据的获取 通常是从网站上爬取须要的数据内容,这里处理的文本主要是英文的文本。得到的数据的形式为:一个文档占据一行。python 2 Tokenize(令牌化) 因为原始的文本是一个文档占据一行,无法对单个词进行统计分析,全部要将单词所有分开,包括将标点符号也要分开。web 3 stemming&lemma(词干化及词型还原) 在英文中,同一个单词会由于时态、语态的不
相关文章
相关标签/搜索