背景
拓展知识图谱-人物关系模块,激发用户兴趣点击,提高流量。
要解决的问题
一、识别人名:ner 命名实体识别。
二、识别两我的是有关系的;
人名共现来讲明两我的之间有关系;
词向量计算词与词之间的类似度来讲明两我的之间关系。
三、人物关系挖掘。
两我的名知足某种依存模式,则将两我的名和关系抽取出来。
用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注
依存句法中咱们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);
技术方案、基于依存句法的人物关系抽取
核心工程
模式_实例1
两人名实体同时位于主语,并列关系
例如:1914年,孔祥熙与宋霭龄于日本结婚。
利用哈工大语言云进行句法分析获得结果以下:
模式_实例2
两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不一样策略的挖掘。
例如:邓超的妻子孙俪也是著名演员。
使用句法分析获得结果以下:
模式_实例3
两人名实体位于宾语,修饰关系
例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。
模式_实例4
两人名实体分别为主语和宾语,这种状况时,
选取谓语动词做为特征词。
例如“子路师从孔子”
模式_实例5
关系名为主语、人名2为宾语,这种状况时,选取谓语动词“是”做为特征词。
例如“禹智皓的哥哥是韩国男歌手禹泰云”
训练数据
部分训练样本post
金城武在经济公司的安排下师从歌手陈升
子路师从孔子
禹智皓的哥哥是韩国男歌手禹泰云
贾巴里·帕克的父亲桑尼·帕克是前NBA球员 APP
邓超的妻子孙俪也是著名演员 APP两人名实体同时位于主语,修饰关系
1914年,孔祥熙与宋霭龄于日本结婚 两人名实体同时位于主语,并列关系
他的妻子以往被认为是洪秀全的妹妹洪宣娇 两人名实体位于宾语,修饰关系
韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成
刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细
优化方案
指代消解。针对那些语句中有代词状况,考虑采用指代消解方案进行优化!
提升精准度特殊处理方式:
一、特定关系,必须知足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷
二、语义提取,太依赖于nlp服务自己,在项目中发现,句法分析中出现部分中文词没法提取出来(这种nlp的句法分析服务暂没提供自定义词库功能);
三、ner的识别问题,经过增长分词,并增长一些自定义的分类方式,提升ner的识别度!
数据评估——衡量方法的优劣
一、大多采用准确率和召回率和F1值来衡量方法的优劣。
二、F1值为准确率和召回率的加权几何平均值,具体定义以下。
β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。
数据评估方式
数据标注:
1) 先跑出一版数据,而后再数据上作正确的标注;
评估方式:
1) 关系挖掘数据评估;
2) 内链数据评估;
新闻数据评估:
1) 近似认为与原语料相同,进行数据类挖掘;
规则提取特征:
1) 换行提取
2) 单行优化
丘行恭url

推荐