文本数据的机器学习自动分类方法(上)

本文为第一部分,着重介绍文本预处理以及特征抽取的方法。算法 随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具备重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。“文本分类是指在给定分类体系下,根据文本内容自动肯定文本类别的过程”(达观数据科技联合创始人,张健)。文本分类有着普遍的应用场景,例如:数据库 新闻网站包含大量报道文章,基于文章内容,须
相关文章
相关标签/搜索