e2e代码分析

时间 2019-11-08

标签 e2e 代码分析繁體版

原文原文链接

conll-2012-train.v4.tar.gz
conll-2012-development.v4.tar.gz
conll-2012-test-key.tar.gz
conll-2012-test-official.v9.tar.gz
conll-2012-scripts.v3.tar.gz（把ske文件转换成conll文件的脚本）
reference-coreference-scorers.v8.01.tar.gz。
reference-coreference-scorers 移到了conll-2012/scorerjson

数据：dev.english.v4_gold_conll
train.english.v4_gold_conll
test.english.v4_gold_conlldom

minimize_partition:主要就是处理数据集：输入是conll文件，输出是.jsonline文件spa

dom.finalize()：主要是把clusters里面的val统一。blog

hanld_bit:##stack ,在碰见（的时候弹入，（1，top）,(1,s),(1,pp),在）的时候弹出。token

labels里的english_const_labels里面放的就是这些parse拆分以后的，ner放的就是nerip

stats里面放的是共指链的个数，mentions 的个数。ci

get_char_vocab：得到各个数据集的词典：char_vocab.english.txtv8

filter_embedding.py : 输入是glove.840.txt，train.jsonline test.jsonline 输出是glove.840.filter，主要是对词向量表针对数据集进行必定的过滤，抽出须要的词向量。get

elmo_modul的使用：http://quabr.com/53570918/paragraph-embedding-with-elmostring

cach_elmo：就是对应地得到每一句的词向量的表示（可是elmo是基于charater的因此论文叫作charater embeding）,实际上是基于字向量的embedding。

["elmo"]这个只是一个名字吗？为何这里作了三次。

以上都是setup_training的里面的，是生成一些后续须要的文件的。

接下来的是train.py里面的：

tensorize_example：train_examples是一个list，这个list的每一行就是一个string

给每个共指链一个编号，

以后的一系列都是在求一些值，仍是相似于在处理数据，注意char_index

(tokens, context_word_emb, head_word_emb, lm_emb, char_index, text_len, speaker_ids, genre, is_training, gold_starts, gold_ends, cluster_ids)

tokens

lm_emb就是个onehot估计。

关于这个mask，在这里面不是标签的意思，是说把这个二维的list，取对应的数出来进行一个拼接成一维的list。

1. 【CVPR2020】视频分析：e2e
2. hyperledger fabric超级账本java sdk样例e2e代码流程分析
3. 代码分析
4. __main代码分析
5. Java代码分析
6. JavaScript 代码分析
7. BroadcastReceiver代码分析
8. start.c代码分析
9. JSI代码分析
10. Netty代码分析
更多相关文章...
• Markdown 代码 - Markdown 教程
• Eclipse 代码模板 - Eclipse 教程
• IntelliJ IDEA代码格式化设置
• IntelliJ IDEA安装代码格式化插件