【算法设计】基于大规模语料的新词发现算法

对中文资料进行天然语言处理时,咱们会遇到不少其余语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和还没有结婚的”到底是“已/结婚/的/和/还没有/结婚/的”,仍是“已/结婚/的/和尚/未/结婚/的”呢?算法 这就是所谓的分词歧义难题。不过,如今不少语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更使人头疼的东西——未登陆词。中文没有
相关文章
相关标签/搜索