最近总是有客户在问一些关于页面相似度的问题,也有不少网站因为页面相似度过高而不被搜索引擎收录,甚至降权,惩罚。其实搜索引擎蜘蛛在爬行您网站页面的同时,它不光会把网站的内容同其他站点进行比较,还会与您网站的其它页面进行比较,当两个页面的相似度过高时,很有可能被搜索引擎判断为抄袭或复制。在我看来页面相似度过高分为页面内容相似度过高和代码结构相似度过高。
1. 页面内容相似度过高,这样的情况比较容易发生在文字内容较少,图片及链接较多的页面上。由于有利于搜索引擎区分不同页面的文字内容少,其他的页面结构,版块内容又大致相同,很容易使2个页面的相似度高于80%。
2. 代码结构相似度过高,一般比较容易发生在电子商务网站的产品页面,由于产品较多,页面的代码通常为模板,从上到下为主导航+二级导航+产品列表+产品标题+产品介绍,这样的结构很容易造成搜索引擎的抓取疲劳,认为所有的页面内容相似,从而影响网站的收录。