NLPIR中文信息处理运用语义技术解决难题

时间 2019-12-12

原文原文链接

　　在中文信息处理和理解系统中,“词处理”是一个基础环节。所谓“词处理”,是指在连续的汉字字符串中识别词语, 并获取这些词语的语言学信息和统计学信息,譬如:语法属性、语义属性、用法信息等,这些信息是系统下一步分析和理解语句的必要基础。咱们把计算机获取这些必要的信息称为对词语的理解。这样,“词处理”的任务就是识别和理解语句中的词语。网络

　　中文信息处理分为汉字信息处理与汉语信息处理两部分，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息，就是汉语信息处理，又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。工具

　　“字处理”、“词处理”分别与汉字和词汇有关。句处理的主要内容是，怎样使计算机理解天然语言(如现代汉语)的句子的意思，又怎样使计算机生成符合天然语言规则的句子。“句处理”所须要的语言知识，将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。你们都深感现有的关于汉语的知识远远不能知足中文句处理的须要。单就句法方面的状况说。在中文信息处理过程当中将会不断遇到咱们想象不到的问题，许多问题在人看来仍是比较容易解决的，但计算机解决就比较困难了。大数据

　　一、首先，就切分而言，中文本来没有词的概念，没有一个统一的词的确切定义。中文构词方法的多样性特色使得分词十分困难。汉字造词能够是字，也能够是词甚至词组。造句的方式有以字造词,以词造词。若是没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。搜索引擎

　　2.其次，汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机处理的语法规则。汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至今仍难以对它进行完备的总结。这也为汉语分词制造了困难。编码

　　3.再次，现有的分词方法基本上都是基于统计和词典的分词方法,它们都必须在分词速度和精度之间作出选择。要提升速度,就要适当放弃精度的追求,缩减词典,减小匹配次数。而要提升切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增长。所以，切分效率不高也是一大问题。spa

　　4.最后，基于统计的分词方法虽然可以有效地自动排除歧义，但也不能百分百的消除歧义。由于汉语因为构词语素大可能是不定位语素，又有至关数量的自由语素，汉语词理解的多义性、复杂性, 再加上词与词之间没有空格隔开,没有任何区分标志，这就形成了切分中的多分字段，于是歧义现象是分词过程当中不可避免的现象。操作系统

　　北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是知足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、天然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。翻译

　　NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API能够无缝地融合到客户的各种复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不一样操做系统平台，能够供Java，Python，C，C#等各种开发语言使用。中间件

　　随着信息技术在我国社会生活各个领域应用的深刻,中文信息处理正在成为人们工做和生活中不可或缺的手段，中文信息处理将具备更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础，在互联网日益成长的今天，中文信息处理技术将会更加成熟并创新。索引