《数学之美(第一版)》笔记 —— 第4章

第4章 谈谈中文分词 中文分词方法的演变: 查字典:遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词。缺点:无法解决二义性问题(如,发展中国家,发展-中-国家,发展-中国-家) 统计语言模型 不需要穷举所有的分词方式,可以采用动态规划或者维特比算法来快速找到最佳分词。 关于分词的颗粒 颗粒度大,翻译效果最好。(例如“联想公司”,作为一个整体) 颗粒度小,网页搜索好。(例如“清华大学”和“
相关文章
相关标签/搜索