LTP 4.0!单模型完成6项天然语言处理任务


背景

语言技术平台(Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心(HIT-SCIR)历时多年研发的一整套高效、高精度的中文天然语言处理开源基础技术平台。微信

该平台集词法分析(分词、词性标注、命名实体识别)、句法分析(依存句法分析)和语义分析(语义角色标注、语义依存分析)等多项天然语言处理技术于一体。其中句法分析、语义分析等多项关键技术屡次在CoNLL国际评测中得到了第1名。此外,平台还荣获了2010年中国中文信息学会科学技术一等奖、2016年黑龙江省科技进步一等奖。 框架

目前,LTP已被包括清华大学、北京大学、CMU等国内外众多大学及科研机构在内的600余家研究单位签署协议使用。同时,向百度、腾讯、华为、讯飞等多家知名公司收费受权。ide

GitHub的星标达2500余个,Fork数750余个。有效解决了天然语言处理技术入行门槛高,准确率、效率偏低,缺乏共享数据和程序资源,重复开发现象严重,结果可视化差,错误分析困难,较难真正支持各种应用研究等众多问题。性能


特点

哈工大SCIR本科生冯云龙等同窗在车万翔教授指导下,于近日对LTP进行了新一轮的全面升级,并推出了LTP 4.0版本。这次升级的主要改进为: 学习

  • 基于多任务学习框架进行统一学习,使得所有六项任务能够共享语义信息,达到了知识迁移的效果。既有效提高了系统的运行效率,又极大缩小了模型的占用空间 测试

  • 基于预训练模型进行统一的表示 ,有效提高了各项任务的准确率 人工智能

  • 基于教师退火模型蒸馏出单一的多任务模型,进一步提升了系统的准确率 spa

  • 基于PyTorch框架开发,提供了原生的Python调用接口,经过pip包管理系统一键安装,极大提升了系统的易用性3d

性能

下表列出了新旧版LTP在精度、效率和模型大小方面的对比:code

为了模型的小巧易用,本次发布的版本基于哈工大讯飞联合实验室发布的中文 ELECTRA Small 预训练模型。后续将陆续发布基于不一样预训练模型的版本,从而为用户提供更多准确率和效率平衡点的选择。 

测试环境以下: 

  • Python 3.7 

  • LTP 4.0 Batch Size = 1 

  • CentOS 3.10.0-1062.9.1.el7.x86_64 

  • Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz 

备注:速度数据在人民日报命名实体测试数据上得到,速度计算方式均为全部任务顺序执行的结果。另外,语义角色标注与语义依存新旧版采用的语料不相同,所以没法直接比较(新版语义依存使用SemEval 2016语料,语义角色标注使用CTB语料)。


使用

新版LTP采用原生Python实现,仅需运行 pip install ltp 便可安装使用。调用方式:

from ltp import LTP
ltp = LTP() # 默认自动下载并加载 Small 模型
segment, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)

欢迎访问http://ltp.ai/(点击文末“阅读原文”进行跳转),获取平台的源代码、模型及更详细的介绍信息,敬请提出反馈意见。 

更多阅读

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许能够成为一座桥梁,促使不一样背景、不一样方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或我的,在咱们的平台上分享各种优质内容,能够是最新论文解读,也能够是学习心得技术干货。咱们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系我的原创做品,来稿需注明做者我的信息(姓名+学校/工做单位+学历/职位+研究方向) 

• 若是文章并不是首发,请在投稿时提醒并附上全部已发布连接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 全部文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便咱们在编辑发布时和做者沟通

????

如今,在「知乎」也能找到咱们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅咱们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。若是你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。