关于挖掘新词方法的一点点思考

新词挖掘的背景

分词做为NLP数据预处理的前提在NLP领域的地位一直很重要,在当今预训练迁移模型训练的时代,分词依然发挥着重要做用,先对语句进行分词,而后分词后变成编号和NLP的嵌入优化参数取对应的嵌入,固然也能够按照字和字形声调和字形图像特征输入NLP模型进行训练,可是这明显会让模型效率降低。因此讨论分词很是重要。那么分词怎么作呢?就是在词典里找到对应的最长的词汇,做为一个新词,进行分词。可是词典怎么来?时代在进步,新词也不断出现,怎么办呢?就涉及到新词挖掘的需求。web

新词发现的方法

1.统计方法算法

首先有个感官,两个词在一块儿次数在整个词典很是多,那么这两个词极可能成为一个词。那么怎么度量这个感官呢?首先讨论吃红薯,统计“吃”的个数n1,统计“红薯”的个数n2,统计"吃红薯"的个数n,若是n/(n1*n2)很大,极可能成为一个词。固然这个远远不够。若是这样“吃土豆”,“吃玉米”都是一个新词了,显然“土豆”才是真正的词,’玉米‘才是新的词,这该怎么办呢?这就要涉及一个词左右变化的程度了。玉米前面可能会有掰玉米,啃玉米,卖玉米,若是前面的词很是丰富,那么‘玉米’本身更应该成为一个新词;固然也有后面。那这个感官又怎么度量呢?这就涉及到熵的概念,这里不打算拘泥于熵的定义。有没有更直白的方式呢?统计“卖“+”玉米“+饼”中这样组合的次数。除以玉米出现的总次数。这个词很大,表明玉米是实际的词,卖玉米和玉米饼不能做为新词。
上面的两个感官成为了一种新词发现的方法。那具体怎么才能结合呢?两个参数能够取乘积知足某一个阈值,就能够判断一个词是不是一个词。也能够取一个乘积后知足阈值后,增对两个参数分别进行二次阈值判断。根据本身项目经验进行设定。网络

2.神经网络方法svg

神经网络方法在新词发现方面并无太大优点。而更多的是经过直接解决分词问题的二分类。好比“三国演义是一部古典长篇小说”。经过一个地方要不要切做为二分类。好比“三”要切,“是”要切,“一”要切,“古”要切,“长”要切。而后进行二分类便可。优化

总结

天然语言处理不像图像领域,像素特征之间存在关联性,而天然语言处理用序号进行嵌入,优化算法自己更像是针对特征统计的一种优化。为啥天然语言处理和图像领域的进展有差距,针对这方面的工做有不少值得本身去研究和思考。xml