文本关键字提取

文本关键字提取

用途:

  • 用核心信息表明原始文档
  • 在文本聚类、分类、自动摘要等领域又很重要的做用

需求:针对一篇文章,在不加入人工干预的状况下提取出关键词(自动提取)算法

  1. 固然,首先须要进行分词!
  2. 关键词匹配:事先给定关键词库,而后在文档中进行关键词检索
  3. 关键词提取:根据某种准则,从文档中提取最重要的词做为关键字
  • 有监督:提取出候选词并标记是否为关键词,而后训练相应的模型
  • 无监督:给词条打分,并基于最高分值提取

无监督方式的分析思路:基于词频

  • 分析思路1:按照词频高低进行提取(存在弊端
    • 大量的高词频词并没有意义(例如停用词
    • 即便出现频率相同,常见词的价值也明显低于不常见词
  • 分析思路2:按照词条在文档中的重要性进行提取
    • 如何肯定词条在该文档中的重要性?TF-IDF算法
    •  基于网络图
相关文章
相关标签/搜索