自然语言处理(NLP)笔记-文本预处理

文本预处理(text pre-processing) Why: 单词由于时态,单复数,比较级等不同有不同的形态 典型的文本预处理步骤: Tokenisation: 将文本分割为句子,然后分割为单词。 句子分割(sentence segmentetion):在语法上正确的意思独立的最短的一组词。通过标点进行分割,叹号和问号是明确的,但是句号却有点模糊(例如缩写或者小数等)。可以通过a.手写规则(if
相关文章
相关标签/搜索