NLP之文本表示——二值文本表示

文本原始结构为非结构化的字符串,大部分的模型和算法都不能处理非结构化的数据。因此,我们需要将非结构化的数据结构化。 方法:将文本映射到特定的特征空间上,将文本表示为能够刻画其信息的特征向量,使得我们可以利用各种算法模型来处理这些文本数据。 什么样的特征能刻画文本信息呢? 将特征选为文本中出现的词,通过定义词在文本中的重要度得到文本的向量表示。 在主流的文本表示方法中,大致可以将文本表示方法分为非神
相关文章
相关标签/搜索