中文文本类似度的研究有什么用

前言

人与计算机的交互过程当中,若是能提供人类的天然语言形式来进行交流,那人与计算机就能更加亲密友好。而要实现这一机制就须要天然语言处理来处理,通常来讲天然语言处理会涉及几个学科:计算机科学、语言学、统计学和数学等。算法

不一样语言的天然语言处理也存在差异,对于中文来讲,不少时候都没法直接套用英语天然语言处理中相对成熟的理论。有不少基础工做也是须要咱们本身去作,这就包括了中文类似度。并发

类似度

中文类似度按照长度能够有字与字的类似度、单词与单词的类似度、句子与句子的类似度、段落与段落的类似度和文章与文章的类似度。机器学习

传统类似度的衡量计算通常可使用编辑距离算法、余弦值法、SimHash法、n-gram法、汉明距离法、最长公共子串法、最长公共子序列法等等。分布式

类似度计算方法总的能够归为两类,一类是基于统计的方法,通常用于句子段落这些较大粒度文本。另外一类是基于语义的方法,通常用于词语或句子等较小粒度文本。学习

应用场景

中文类似度应用普遍,.net

  • 好比在信息检索中,信息检索系统中为了能召回更多与检索词语类似的结果,能够用类似度来识别类似的词语,以此提升召回率。
  • 好比在自动问答中,自动问答与检索系统主要的不一样的是自动问答可使用天然语言交互,而检索系统通常是经过关键词进行搜索。并且响应也不一样,自动问答给出一个准确惟一的答案做为响应,而检索系统的响应通常有不少相关的结果。类似度在这里能够用来计算用户以天然语言的提问问句与语料库中问题的匹配程度,那么匹配度最高的那个问题对应的答案将做为响应。
  • 好比在机器翻译中,会分析语句的类似度来完成双语的翻译,可否准肯定义并计算类似度将影响翻译的效果,最简单的类似性分析就是直接利用语句中每一个词的语法和语义来分析,而若是要更进一步分析的话则是先分析语句的依存树,而后再计算类似度。
  • 好比在自动文摘中,在提取文摘的过程当中要利用类似度对语义类似的句子进行抽取。
  • 好比NLP其余应用领域。

总结

从某种程度上来讲,若是能定义一个较好的类似度计算方式,而且能有一个较好的准确性,那么基本就能解决不少NLP领域文本相关的问题。翻译

=============广告时间===============设计

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。cdn

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有须要的朋友能够购买。感谢各位朋友。blog

为何写《Tomcat内核设计剖析》

=========================

相关阅读:

谈谈谷歌word2vec的原理

如何用TensorFlow训练词向量

欢迎关注:

这里写图片描述
相关文章
相关标签/搜索