DC自然语言处理———文本分类基础

NLP相关基础概念 文档(document):是指一段单独的文本信息。可能是一则短信、一条推特、一份邮件、一本书、或者一首歌词。一般一个文档对应于一个观测值或一行数据。 词语(token):例如“今天天气真好”这个文档,是由今天,天气,真好三个单词组成的。token相当于机器学习中的特征(列)。 预料(corpus):文档的集合(预料大于等于一条文档)。这相当于我们要研究对象的所有文本数据。 (1
相关文章
相关标签/搜索