搜索引擎是如何筛除重复内容的
一手资料出现后会被许多网站发布出来,SEO人员和小站长也在孜孜不倦地用采集工具同步内容。这样,网上就有大量的雷同内容。如果搜索某一个关键词,搜索引擎返回的都是雷同内容,这对搜索引擎的客户体验是不小的打击。抓取雷同内容是对搜索引擎资源的浪费。所以搜索结果去重是搜索引擎的大课题。
去重工作通常在分词后,索引前。搜索引擎会从分好的关键词里挑选出具有代表性的,然后计算其“指纹”。每个网页都会有这类指纹,抓取的指纹与索引库当中的有重复时,就会放弃索引。
实际工作中,百度搜索引擎还会采用一种叫连续切割的方法来获取关键词,就是文章进行每三个字一组的切割,比如上一句话,及可能被切割成“就是文”“是文章”“文章进”这样的小块关键词,这种切割是专门为防止重复而准备的。
所以理论上伪原创是可以骗过搜索引擎的防重复机制的,但是后果就是文章鬼都读不懂。这种伪原创半点意义都没有,因为只要内容是有意义的,百度会适当放宽条件,权重较高的网站,即便网站内容有重复也是会被索引。
- 上一篇:关于SEO优化的一些建议
- 下一篇:百度竞价对第二页广告显示的作用