青岛做网站
        行业新闻
行业新闻
当前位置:首页> 新闻动态 > 行业新闻

百度谷歌是如何识别伪原创的

来源:华软创信  ‌|  ‌类型:青岛做网站/网站建设  |  ‌时间:2011-03-03

第一,搜索引擎会过滤“的,了,呢,啊”之类的重复率非常之高的对排名无帮助的无用词语。

第二,这里要谈为什么有时候不仅近义词转换了并且打乱句子与段落依然无效。当搜索引擎过滤掉无用词,并将各类近义词转化为A,B,C,D后开始提取出这个页面最关键的几个词语A,C,E(这里举个例子,实际可能提取的关键字不是ACE三个而是1个到几十个都是说不定的)。并且将这些词进行指纹记录。这样也就是说,近义词转换过的并且段落打乱过的文章和原文对于搜索引擎来说是会认为一模一样的。

第三,这段更深层次解释为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出。首先既然百度能够生成指纹自然也能解码指纹,段落重组的文章不过是重要关键字的增加或者减少,这样比如有两篇文章第一篇重要关键字是ABC,而第二篇是AB,那么搜索引擎就可能利用自己一个内部相似识别的算法,如果相差的百分数在某个值以下就放出文章并且给予权重,如果相差的百分数高于某个值那么就会判断为重复文章从而不放出快照,也不给予权重。这也就是为什么几篇文章段落重组的文章依然可能会被搜索引擎识别出的原因。

第四,我要解释下为什么有些伪原创文章仍然可以被收录的很好。我上面的推理只是对于百度识别伪原创算法的大致框架,实际上谷歌百度对于识别伪原创的工作要更加庞大并且复杂的多,谷歌一年就会改变两百次算法足以看出算法的复杂性。为什么某些伪原创的文章依然可以被收录的很好。只有两个原因:

  1.网站自身权重高,哪怕不为原创照搬别人的文章还是百分之百会被收录给予权重。

  2.搜索引擎绝对不可能完美到过滤所有伪原创,这是不可能的,就好像人工智能的图灵永远无法完美到拥有人类的情绪一样。

 

 

免责声明:本站所有资讯内容搜集整理于互联网或者网友提供,并不代表本网赞同其观点,仅供学习与交流使用,如果不小心侵犯到你的权益,如果你对文章内容、图片和版权等问题存在异议,请及时联系我们删除该信息。