百度蜘蛛抓取我们的网站,希望我们的网页能被纳入其搜索引擎。将来,当用户搜索时,它可以给我们带来一定的SEO流量。当然,我们不想让搜索引擎捕捉一切。
因此,在这个时候,我们只想抓取我们想要在搜索引擎中搜索的内容。像用户隐私和背景信息一样,我们不希望搜索引擎被抓取和包含。有两种解决此问题的较好方法。
机器人协议文件的设置相对简单,可以通过三个参数进行设置:用户代理不允许和允许。
如上所述,用户代理声明的蜘蛛名称是指百度蜘蛛。无法抓取/*.Below CSS,首先,前面的/指的是根目录,也就是说,你的域名*是一个通配符,代表任何内容。这意味着所有的文档都是有序的,你不能在CSS的末尾抓取任何东西。你可以经历以下两种情况。逻辑是一样的。
如果您想检查上一个robots文件是否正确,可以访问本文检查robots是否正确的工具简介。有详细的工具来检查你的设置。
403状态代码是HTTP协议中网页返回的状态代码。当搜索引擎遇到403状态码时,它知道这种页面有权限限制。我不能去。例如,如果您需要登录以查看内容,搜索引擎本身将不会登录。当您返回403时,他也知道这些是权限设置页面,无法阅读内容。当然,它不会被收录在内。
当返回403状态代码时,应该有一个类似404页面的页面。提示用户或爬行器他们想要做什么来访问这些页面。两者缺一不可。你只能提示页面,状态码返回200,这是百度蜘蛛的大量重复页面。有403个状态代码,但返回的内容不同。这不是很友好。
最后,对于机器人协议,我想补充一点:现在,搜索引擎将通过网页的布局和布局来识别你的网页的体验友好性。如果你阻止抓取CSS文件和与布局相关的JS文件,搜索引擎将不知道你的网页布局是好是坏。因此,不建议阻止蜘蛛抓取这些内容。。
今天的分享到此为止。我希望它能帮助你。当然,以上两种设置对除百度蜘蛛外的所有蜘蛛都有效。设置时请小心。