NLPIR汉语分词为天然语言处理提供新方向

  随着计算机网络的飞速普及,人们已经进入了信息时代。在这个信息社会里,信息的重要性与日俱增,不管是我的,企业,乃至政府都须要获取大量有用的信息。谁掌握了信息,谁就能在竞争中处于有利位置。在这种环境下,搜索引擎技术逐渐成为技术人员的开发热点,而其中最为重要的技术就是分词技术。算法

  中文分词,顾名思义,就是借助计算机自动给中文断句,使其可以正确表达所要表达的意思。中文不一样于西文,没有空格这个分隔符,同时在中文中充满了大量的同义词,相近词,如何给中文断句是个很是复杂的问题,即便是手工操做也会出现问题。中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、天然语言理解等中文信息处理领域的基础研究课题。对于中文分词的研究对于这些方面的发展有着相当重要的做用。能够这样说,只要是与中文理解相关的领域,都是须要用到中文分词技术的。所以对于中文分词技术的研究,对于我国计算机的发展有着相当重要的做用。数据库

  北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是知足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、天然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。网络

  NLPIR大数据语义智能分析平台十三大功能:大数据

  精准采集:对境内外互联网海量信息实时精准采集,有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。搜索引擎

  文档转化:对doc、excel、pdf与ppt等多种主流文档格式,进行文本信息转化,效率达到大数据处理的要求。编码

  新词发现:从文本中挖掘出新词、新概念,用户能够用于专业词典的编撰,还能够进一步编辑标注,导入分词词典中,提升分词系统的准确度,并适应新的语言变化。spa

  批量分词:对原始语料进行分词,自动识别人名地名机构名等未登陆词,新词标注以及词性标注。并可在分析过程当中,导入用户定义的词典。计算机网络

  语言统计:针对切分标注结果,系统能够自动地进行一元词频统计、二元词语转移几率统计。针对经常使用的术语,会自动给出相应的英文解释。翻译

  文本聚类:可以从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。excel

  文本分类:根据规则或训练的方法对大量文本进行分类,可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

  摘要实体:对单篇或多篇文章,自动提炼出内容摘要,抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

  智能过滤:对文本内容的语义智能过滤审查,内置国内最全词库,智能识别多种变种:形变、音变、繁简等多种变形,语义精准排歧。

  情感分析:针对事先指定的分析对象,系统自动分析海量文档的情感倾向:情感极性及情感值测量,并在原文中给出正负面的得分和句子样例。

  文档去重:快速准确地判断文件集合或数据库中是否存在相同或类似内容的记录,同时找出全部的重复记录。

  全文检索:支持文本、数字、日期、字符串等各类数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

  编码转换:自动识别内容的编码,并把编码统一转换为其余编码。

  中文分词技术应时代的要求应运而生,在很大程度上知足了人们对天然语言处理的须要,解决了人和计算机交流中的一些障碍;但中文分词技术也存在不少困难,咱们相信在将来的几年里,经过对中文分词技术的深刻研究,必将开发出高质量、多功能的中文分词算法并促进天然语言理解系统的普遍应用。

相关文章
相关标签/搜索