【算法设计】基于大规模语料的新词发现算法

时间 2020-08-04

标签算法设计基于大规模语料新词发现算法繁體版

原文原文链接

对中文资料进行天然语言处理时，咱们会遇到不少其余语言不会有的困难，例如分词——汉语的词与词之间没有空格，那计算机怎么才知道“已结婚的和还没有结婚的”到底是“已／结婚／的／和／还没有／结婚／的”，仍是“已／结婚／的／和尚／未／结婚／的”呢？算法这就是所谓的分词歧义难题。不过，如今不少语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里，还有一个比分词歧义更使人头疼的东西——未登陆词。中文没有

>>阅读原文<<