Bert的训练数据生成和解读

在网上看了久,还没看到仔细梳理bert训练数据的解读文章,本人基于bert源码和faspell作者的demo梳理了下bert的训练数据的生成过程,便于小白入门。本人水平有限,如果写有不当之处,烦请大家指正。 生成MLM任务需要的mask数据 用于训练的文本材料是以行排列的句子。 首先读取一行句子,以:“工时填写。”为例,该句子会被认为是一个document和一个chunk,认定只有一个句子后,会随
相关文章
相关标签/搜索