NLPIR中文信息处理运用语义技术解决难题

  在中文信息处理和理解系统中,“词处理”是一个基础环节。所谓“词处理”,是指在连续的汉字字符串中识别词语, 并获取这些词语的语言学信息和统计学信息,譬如:语法属性、语 义属性、用法信息等,这些信息是系统下一步分析和理解语句的必要基础。咱们把计算机获取这些必要的信息称为对词语的理解。这样,“词处理”的任务就是识别和理解语句中的词语。网络

  中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。工具

  “字处理”、“词处理”分别与汉字和词汇有关。句处理的主要内容是,怎样使计算机理解天然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合天然语言规则的句子。“句处理”所须要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。你们都深感现有的关于汉语的知识远远不能知足中文句处理的须要。单就句法方面的状况说。在中文信息处理过程当中将会不断遇到咱们想象不到的问题,许多问题在人看来仍是比较容易解决的,但计算机解决就比较困难了。大数据

  一、首先,就切分而言,中文本来没有词的概念,没有一个统一的词的确切定义。中文构词方法的多样性特色使得分词十分困难。汉字造词能够是字,也能够是词甚至词组。造句的方式有以字造词,以词造词。若是没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。搜索引擎

  2.其次,汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机处理的语法规则。汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至今仍难以对它进行完备的总结。这也为汉语分词制造了困难。编码

  3.再次,现有的分词方法基本上都是基于统计和词典的分词方法,它们都必须在分词速度和精度之间作出选择。要提升速度,就要适当放弃精度的追求,缩减词典,减小匹配次数。而要提升切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增长。所以,切分效率不高也是一大问题。spa

  4.最后,基于统计的分词方法虽然可以有效地自动排除歧义,但也不能百分百的消除歧义。由于汉语因为构词语素大可能是不定位语素,又有至关数量的自由语素,汉语词理解的多义性、复杂性, 再加上词与词之间没有空格隔开,没有任何区分标志,这就形成了切分中的多分字段,于是歧义现象是分词过程当中不可避免的现象。操作系统

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是知足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、天然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。翻译

  NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API能够无缝地融合到客户的各种复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不一样操做系统平台,能够供Java,Python,C,C#等各种开发语言使用。中间件

  随着信息技术在我国社会生活各个领域应用的深刻,中文信息处理正在成为人们工做和生活中不可或缺的手段,中文信息处理将具备更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。索引

相关文章
相关标签/搜索