随着大数据、深度学习、云计算这三大要素推进,从初步的应用到搜索、聊天机器人上,到经过对上下文的理解,知识的把握,天然语言处理技术将迎来进步最快的一个时期。国内 NLP领域的创业公司不断进行其商业化探索。
天然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看,天然语言理解的任务是创建一种计算机模型,这种计算机模型可以给出象人那样理解、分析并回答天然语言(即人们平常使用的各类通俗语言)的结果。
天然语言理解技术的含义:
首先, 天然语言是极其复杂的符号系统。一我的尽管能够对本身的母语运用自如, 但却没法把本身母语的构成规律、意义的表达规律和语言使用的规律用计算机能够接受的方式完全说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为天然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操做的, 毫不是那么简单, 也不能那么模糊。这个目标的实现,须要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一块儿作很是大规模的基本建设, 毫不是一拍脑壳想出个“绝招”就能解决的。
其次, 天然语言的各个层次上都含有巨大的不肯定性。在语音和文字层次上,有一字多音、一音多字的问题; 在词法和句法层次上, 有词类词性、词边界、句法结构的不肯定性问题; 在语义和语用层次上, 也有大量的因种种缘由形成的内涵、外延、指代、言外之义的不肯定性。语言学上把这些不肯定性叫作“歧义”。歧义通常不能经过发生歧义的语言单位自身得到解决, 而必须借助于更大的语言单位乃至非语言的环境背景因素和常识来解决。人类有很强的依靠总体消除局部不肯定性的能力和常识推理能力, 体如今语言上就是利用语境信息和常识消除歧义的能力。使计算机得到一样强大的能力, 是从事天然语言理解的学者求之不得的目标。
另外, 天然语言不是一成不变的死的语言, 它在社会生活中发展, 在操不一样语言和同一语言的不一样变体的人们之间的相互影响中变化。一个词、一个说法可能在一晚上之间忽然流行起来; 特殊的人群结构变化会致使新的语言或新的语言变体 (如方言) 的出现。这些都要求理解天然语言的计算机程序要具备对外界语言环境的应变能力。
最后一点, 天然语言是人们交流思想的工具。既然交流的是思想, 那思想自己在计算机里的组织结构就显得格外重要。在人工智能里, 这就是“知识表示”的问题。能够说, 在知识表示问题上的突破, 对于天然语言理解的进展将产生决定性的影响。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是知足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、天然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API能够无缝地融合到客户的各种复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一样操做系统平台,能够供Java,Python,C,C#等各种开发语言使用。
天然语言处理已成为大数据技术最重要的应用,它从大数据中提取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层提供有力依据,对产品或服务发展方向起到积极做用,将有力推进企业内部的科学化、信息化管理。在信息管理领域,综合应用数据分析技术和人工智能技术,获取用户知识、文献知识等各种知识,将是实现知识检索和知识管理发展的必经之路。网络