问题:为什么robots禁止抓取了但搜索引擎还会抓取
回答:严格来说robots限制蜘蛛抓取,搜索引擎也是会遵循这个规则的,现在百度搜索引擎对于robots的态度是,依然会抓取,但是不会保留百度快照。其他搜索引擎基本也是同样的。
在百度百科里面有这么一条:robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
设置robots禁止抓取主要是基于两个原因:第一个是新站调试期间,不想让搜索引擎抓取第二个就是网站下某些目录页面,不想被搜索引擎抓取。对于第一种,如果完全不想让搜索引擎抓取,你建议在本地测试,或者是采用其他的域名绑定线上测试,测试没有问题之后再绑定目标域名。至于第二种,其实是没有办法的,因为如果搜索引擎不按照robots规则,那我们似乎也没有什么好的办法阻止,如果搜索引擎收录了这些限制抓取的页面,只能去投诉快照了。
但是大家也要注意,搜索引擎抓取robots文件限制的页面,这对于网站来说并不会造成很大的影响。原则上说这不会浪费抓取份额,除了网站首页以后,也很少发现会收录robots限制抓取的内页。所以,大家也不要太过担心,搜索引擎想抓就让它去抓,如果收录了,就去投诉申请删除。
另外有朋友担心安全的问题,搜索引擎蜘蛛只是一个工具,它本身是没有恶意的,只是会按照规则去工作。大家也不要把搜索引擎想得那么坏,如果网站没有敏感的内容,在不影响到网站优化的情况下,让蜘蛛去抓取也没有什么损失。大家莫要惊慌哦!
关于为什么robots禁止抓取了但搜索引擎还会抓取的问题,本文就简单的说这么多。总之来说,理论上搜索引擎还是会遵循robots规则的,不会胡乱收录这些禁止收录的页面。