适用于大规模文档关键词抽取的利器(flashtext)

从文档中抽取关键词并对关键词相关的变体进行替换,是信息抽取中常用的做法之一,特别是基于规则词典的方法。常见的实现方式是基于正则表达式的方式,2017年的这篇文档介绍则实现了一种全新的算法及其实现原理:flashtext (Replace or Retrieve Keywords In Documents at Scale)。该方法的效率如下图所示:(时间效率上可以看出是一条平衡的直线,不随文档词的
相关文章
相关标签/搜索