自然语言处理中的文本处理和特征工程

机器之心报道 文本处理 现有数据中,文本是最非结构化的形式,里面有各种各样的噪声;如果没有预处理,文本数据都不能分析。清理和标准化文本的整个过程叫做文本预处理(textpreprocessing),其作用是使文本数据没有噪声并且可以分析。 主要包括三个步骤: 移除噪声词汇规范化对象标准化 下图展示了文本预处理流程的结构。 移除噪声 任何与数据上下文和最终输出无关的文本都可被判作噪声。 例如,语言停
相关文章
相关标签/搜索