一、网站页面重复收录的原因是什么
在网站优化过程中,搜索引擎并不喜欢重复内容的收录,一直强调的也是原创,那为什么网站同一页面还会重复收录呢
一般后缀出现了一个问号或者其他的字符串,是因为百度收录文章的同时,会给该篇文章加一个标签,但是访问网站的时候,会自动跳转回来原来的网站,首页或者内页,至于内页的链接被收录到首页有可能是因为该篇文章设置在首页上显示,所以最终的链接地址指向了首页。
1.搜索引擎识别问题—搜索引擎毕竟只是人为编写的一套规则,做不到充分的识别,所以导致部分URL地址的内容重复收录。
2.程序设计问题—有些程序在设计中为了“预览”方便在后台存在动态页面。但因设计不当,导致搜索引擎依旧通过目录的索引便可发现这一存在,进而对其索引收录。
3.模板问题—在模板制作中常常易忽视这一问题,最后模板完成后既存在动态页面,又存在静态页面,如此怎能不被搜索引擎重复收录呢
4.网站改版—网站改版可能会导致一些URL地址的重复收录。
二、网站页面重复收录该如何处理
可以从以下四个方面着手:
1.URL标准化
在网站建设过程中尽量统一URL地址,勿使用动态页面进行链接,一来是搜索引擎青睐静态页面,另一方面也可以防止相同内容被搜索引擎重复收录。
2.利用robots.txt屏蔽动态文件
利用robots.txt进行动态文件的屏蔽,如:“Disallow: /”即屏蔽了根目录下带””的页面,这个可以自己灵活设置。
3.及时的清除缓存
每个网站都会带有两个网址,一般网站更新文章后都需要生成静态的网址,本身就存在一个动态的,自然生成静态后就会多出一个网址,这样的话,如果没及时清除缓存,就可能使得同一个页面的静态,动态URL网址都被收录,因为这搜索引挚把同一篇文章的两个网址看作是独立的,自然就两个都被收录了。所以,及时清除缓存可以很大程度上减少网页被重复收录。
4.利用网站地图引导蜘蛛
网站地图的作用不单单是把整站的内容进行归纳,而且还可以让蜘蛛爬行更加的顺畅无阻,有序的抓取网站内的各个页面,从而也能减少蜘蛛对网站页面重复收录的概率。