首先我写的这篇文章彻底源自本人长期观察总结,若是有何不妥请指正。毕竟我研究SEO也有一段时间,虽说SEO的最高境界是忘记SEO,可是SEO技术也仍是很是有趣的,我研究SEO技术纯粹是我的兴趣,写这篇文章也是给各位站长作一个很好的参考。
一、搜索引擎会自动过滤“的,了,呢,啊,儿”之类的重复率很是之高的对排名无帮助的习惯性常语。
二、这里要谈的是为何有时候在转换近义词时会无效,下面就算是我我的的经验总结了。既然市场上有一堆伪原创工具可以将词语伪原创好比:将“电脑”伪原创为“计算机”,那么有什么理由不相信强大的搜索引擎不会伪原创?因此确定的,搜索引擎必定会近义词伪原创,当搜索引擎遇到“电脑”和“计算机”时,会将他们自动转换这里姑且假设为A,因此不少状况下的近义词伪原创不收录的缘由。
三、这里要谈为何有时候不只近义词转换了而且打乱句子与段落依然无效。当搜索引擎过滤掉无用词,并将各种近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。而且将这些词进行指纹记录。这样也就是说,近义词转换过的而且段落打乱过的文章和原文对于搜索引擎来讲是会认为是类似度很高的。
四、几段更深层次解释为何几篇文章段落重组的文章依然可能会被搜索引擎识别出。首先既然百度可以生成指纹天然也能解码指纹,段落重组的文章不过是重要关键字的增长或者减小,这样好比有两篇文章第一篇重要关键字是ABC,而第二篇是AB,那么搜索引擎就可能利用本身一个内部类似识别的算法,若是相差的百分数在某个值如下就放出文章而且给予权重,若是相差的百分数高于某个值那么就会判断为重复文章从而不放出快照,也不给予权重。这也就是为何几篇文章段落重组的文章依然可能会被搜索引擎识别出的缘由。
五、我要解释下为何有些伪原创文章仍然能够被收录的很好。我上面的推理只是对于百度识别伪原创算法的大体框架,实际上谷歌百度对于识别伪原创的工做要更加庞大而且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性,为何某些伪原创的文章依然能够被收录的很好--会有两个缘由:
1)网站自身权重高,哪怕不为原创照搬别人的文章仍是百分之百会被收录给予权重。
2)搜索引擎绝对不可能完美到过滤全部伪原创,这是不可能的,就好像人工智能的图灵永远没法完美到拥有人类的情绪同样。
我的建议:
1)各位作垃圾站群的朋友们注意了,大家在能够捞一笔的时候就尽情捞一笔吧。可是也但愿大家可以考虑下从此是否是有别的方向能够作?若是百度一会儿更改某些算法使得判断伪原创更智能,哪怕是一些细小的变更也可能就是大家的灭顶之灾吧。另外今年谷歌也对垃圾站宣战了,呵呵大家本身看着办吧。
2)好消息:各位老老实实写原创的站长们,大家绝对选对路了,BUT同时也注意下本身的版权问题哦。算法