依存句法分析的效果虽然没有像分词、NER的效果来的好,但也有其使用价值,在平常的工做中,咱们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果,一个重要的方面即是其可视化和它的图分析。
咱们使用的NLP工具为jieba和LTP,其中jieba用于分词,LTP用于词性标注和句法分析,须要事件下载pos.model
和parser.model
文件。
本文使用的示例句子为:node
2018年7月26日,华为创始人任正非向5G极化码(Polar码)之父埃尔达尔教授举行颁奖仪式,表彰其对于通讯领域作出的贡献。
首先,让咱们来看一下没有可视化效果以前的句法分析结果。Python代码以下:python
# -*- coding: utf-8 -*- import os import jieba from pyltp import Postagger, Parser sent = '2018年7月26日,华为创始人任正非向5G极化码(Polar码)之父埃尔达尔教授举行颁奖仪式,表彰其对于通讯领域作出的贡献。' jieba.add_word('Polar码') jieba.add_word('5G极化码') jieba.add_word('埃尔达尔') jieba.add_word('之父') words = list(jieba.cut(sent)) print(words) # 词性标注 pos_model_path = os.path.join(os.path.dirname(__file__), 'data/pos.model') postagger = Postagger() postagger.load(pos_model_path) postags = postagger.postag(words) # 依存句法分析 par_model_path = os.path.join(os.path.dirname(__file__), 'data/parser.model') parser = Parser() parser.load(par_model_path) arcs = parser.parse(words, postags) rely_id = [arc.head for arc in arcs] # 提取依存父节点id relation = [arc.relation for arc in arcs] # 提取依存关系 heads = ['Root' if id == 0 else words[id-1] for id in rely_id] # 匹配依存父节点词语 for i in range(len(words)): print(relation[i] + '(' + words[i] + ', ' + heads[i] + ')')
输出结果以下:web
['2018', '年', '7', '月', '26', '日', ',', '华为', '创始人', '任正非', '向', '5G极化码', '(', 'Polar码', ')', '之父', '埃尔达尔', '教授', '举行', '颁奖仪式', ',', '表彰', '其', '对于', '通讯', '领域', '作出', '的', '贡献', '。'] ATT(2018, 年) ATT(年, 日) ATT(7, 月) ATT(月, 日) ATT(26, 日) ADV(日, 举行) WP(,, 日) ATT(华为, 创始人) ATT(创始人, 任正非) SBV(任正非, 举行) ADV(向, 举行) ATT(5G极化码, 之父) WP((, Polar码) COO(Polar码, 5G极化码) WP(), Polar码) ATT(之父, 埃尔达尔) ATT(埃尔达尔, 教授) POB(教授, 向) HED(举行, Root) VOB(颁奖仪式, 举行) WP(,, 举行) COO(表彰, 举行) ATT(其, 贡献) ADV(对于, 作出) ATT(通讯, 领域) POB(领域, 对于) ATT(作出, 贡献) RAD(的, 作出) VOB(贡献, 表彰) WP(。, 举行)
咱们获得了该句子的依存句法分析的结果,可是其可视化效果却很差。
咱们使用Graphviz工具来获得上述依存句法分析的可视化结果,代码(接上述代码)以下:算法
from graphviz import Digraph g = Digraph('测试图片') g.node(name='Root') for word in words: g.node(name=word) for i in range(len(words)): if relation[i] not in ['HED']: g.edge(words[i], heads[i], label=relation[i]) else: if heads[i] == 'Root': g.edge(words[i], 'Root', label=relation[i]) else: g.edge(heads[i], 'Root', label=relation[i]) g.view()
获得的依存句法分析的可视化图片以下:微信
在这张图片中,咱们有了对依存句法分析结果的直观感受,效果也很是好,可是遗憾的是,咱们并不能对上述可视化结果造成的图(Graph)进行图分析,由于Graphviz仅仅只是一个可视化工具。那么,咱们该用什么样的工具来进行图分析呢?
答案就是NetworkX。如下是笔者对于NetworkX应用于依存句法分析的可视化和图分析的展现,其中图分析展现了两个节点之间的最短路径。示例的Python代码以下:工具
# 利用networkx绘制句法分析结果 import networkx as nx import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams['font.sans-serif'] = ['Arial Unicode MS'] # 指定默认字体 G = nx.Graph() # 创建无向图G # 添加节点 for word in words: G.add_node(word) G.add_node('Root') # 添加边 for i in range(len(words)): G.add_edge(words[i], heads[i]) source = '5G极化码' target1 = '任正非' distance1 = nx.shortest_path_length(G, source=source, target=target1) print("'%s'与'%s'在依存句法分析图中的最短距离为: %s" % (source, target1, distance1)) target2 = '埃尔达尔' distance2 = nx.shortest_path_length(G, source=source, target=target2) print("'%s'与'%s'在依存句法分析图中的最短距离为: %s" % (source, target2, distance2)) nx.draw(G, with_labels=True) plt.savefig("undirected_graph.png")
获得的可视化图片以下:post
输出的结果以下:测试
'5G极化码'与'任正非'在依存句法分析图中的最短距离为: 6 '5G极化码'与'埃尔达尔'在依存句法分析图中的最短距离为: 2
本次到此结束,但愿这篇简短的文章可以给读者带来一些启发~字体
注意:不妨了解下笔者的微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎你们关注~