Author name disambiguation using a graph model with node splitting and merging based on bibliographi

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

基于文献信息进行节点拆分和合并的图模型消歧方法(GFAD)
 
 
这是一篇比较早的文章,将人名消歧过程做为一个系统,主要想学习它对消歧过程当中的各个阶段的划分
GFAD 是一个面向图的框架,对于元信息缺失,错误信息的存在具备较好的鲁棒性,且不依赖web 环境,也不须要群体数量信息,不须要估计特定的参数或阈值。其中,顶点表示做者,边表示合做关系。
同名问题:分割多个不重叠的环中的共同顶点
异名问题:合并具备不一样名的顶点
同时:可以处理异常问题

1. 概述

1. 基于图的做者姓名消歧方法
2. 使用合做关系构建图模型
3. 基于节点分割和合并解决模糊类别
 
已有研究:
1. 只处理同名问题
2. 依赖于邮件,网页等辅助信息

2. 创新点

涵盖了同名和异名问题
目的:构建对特定域(或数字图书馆)不敏感的通用框架,避免数据缺失和环境错误的影响
 
只依赖 title 和 co-author
1. 以图表为导向的人名消歧方法,从文献信息分析做者间的关系构建图模型
2. 经过连接合做者推断做者的社交环(过去和如今的学术关系)
3. 利用顶点分割或顶点合并
 
与以往研究相比:
1. 只须要合著者信息和 title(必要属性)
2. 不要求其余额外信息或估计值
3. 为同名和异名问题提供一个全面的消除歧义的解决方案

3. 总体框架

1. 利用文献信息分析做者关系构建图模型
2. 拆分存在多个合做网络中的顶点解决同名问题
3. 合并同做者不一样名字的节点解决异名问题
 

3.1. Graph Model Constructor

图模型建设
合著者是解决做者歧义的最有影响力的因素,将合著者信息构建成一个图,合著者为双向关系
 

3.2. Namesake Resolver

同名的解析器检测并解决同名问题
假设同一我的同一时期不多在同一个机构工做,社交群体也不一样
GFAD将从同一个顶点发出的每一个非重叠循环视为不一样社交环,循环检测器查找途中具备多个社交环的顶点,名称分割器拆分与多个社交环相关联的顶点

3.2.1. Cycle Detector

算法过程:
1. 若是是别的环的子环,则移除该环
2. 检测并合并在正在检测的环中共享同一顶点的环
 
Splitting vertices
沿着最长的非重叠环分割包含

3.2.2. Namesake Splitter

GFAD 是从开始到结束的顶点间没有重复顶点和边的简单环,须要为每一个社交圈肯定合适的边界。一般,社交圈越宽,将不一样的人分到同一我的的可能性越大。
若是BDC 包含相关领域的引用记录,或根据领域构建图,较大的社交圈就不容易出现以上错误
GFAD 将最大的环做为该做者的社交圈,假定,同一个顶点出如今多个最大的社交圈时可能包含同名不一样人的做者,所以,咱们须要检测每一个顶点的最大非重叠环,而后根据这些周期进行顶点分割

3.3. Heteronymous Name Resolver

异名解析器
1. 查找具备类似做者名称,而且相同做者检测器识别表示为同一我的的顶点
2. 异名合并器合并该顶点
 
同一个做者使用不一样名字
GFAD 判断具备类似名字的顶点组,若是该组全部成员至少共享一个公共顶点,则将其视为同一我的

3.3.1. similar name searcher

1. GFAD 使用最长公共子序列( LCS ) 方法检测
2. 使用空格和标点符号做为分隔符标记做者名字,并使用LCS 测量类似度
3. 若是二者类似度 > 0.8 则视为类似

 

3.3.2. same author detector

两个类似名称的顶点直接或间接的链接到图中的公共顶点,则认为二者为同一我的

3.3.3. heteronymous name merger

一旦肯定具备类似名称的做者是同一我的,则合并

3.4. Outlier Remover

孤立点:
缺乏消歧所须要的元信息
如:在使用合著关系的系统中,只有一个做者的文章就是孤立点
对于使用做者所属组织的系统中,缺乏做者所属信息的文章就是孤立点
GFAD 将异常值根据表明性的关键字的类似性度量,将相应顶点与图模型中最类似的顶点合并
 
类似度量:
GFAD 将文章中的词汇构成一个特征向量,将其做为关键词,使用余弦类似度,测量异常值和其类似顶点间的类似度
过程:
1. 从 GM 中寻找没有合著信息的顶点
2. 将其中名字类似的顶点标为孤立点,而且选择出有最高类似度的顶点
3. 将孤立点从 GM 中移除,与有最高类似度的节点合并

4. Experiment

分别对比有或没有异常点移除的步骤的效果
 
孤立点去除将离群点合并成最类似的群,当将单个记录群误解为离群点时,GFAD 性能下降
如何合理的去除离群点?
  • 对比使用了哪些属性,信息缺失是否严重
  • 如何定义类似性阈值
 
 
GFAD-AD: 仅使用共同做者
GFAD-OR:孤立点移除
HHC:使用引用特征的非监督人名消歧
HHC-ALL: 使用全部特征属性(合著者,title,地点)
HHC-CO:仅使用合著者特征
  • 使用全部特征属性(合著者,title,地点)
  • 在 arnet 上比 GFAD 性能好
  • 须要预先定义标题和地址的类似度阈值
  • 选择一个惟一的不变的阈值不太现实
GFAD-AD
  • 仅使用共同做者
当仅使用共同做者属性时,GFAD-AD 在两集合中都优于 HHC-CO

5. GFAD 局限性

不能处理:
1. 两个同名做者有相同名字但不一样人的合做者
2. 虽然是同一我的但没有共同合做者
3. 当由单一做者所著时,没有合著者信息
4. 做者我的资料变动(动态变化)
相关文章
相关标签/搜索