许多站长反映百度不支持原创网站。当他们的原始内容被大电台复制后,排名就是大电台。他们自己的电台甚至都不收录在内,更不用说排名了。不要讨论百度和主要搜索引擎如何识别原创。首先,简单地推断搜索引擎应该做什么,如果他们想根据我们的想法识别原始的。
有人认为文字的释放时间是最直接的。谁先发布谁就是原创者。这个事实是正确的,但搜索引擎很难判断谁是文章的原创者,因为在网站发布内容的时候有太多的不确定因素。
_假设是,如果网站上标注的发布时间戳为准,网站将被诱导主动修改其网站上显示的文章的发布时间。例如,内容源网站上标注的发布时间为2014年5月15日17:35,所以收藏网站可以根据源网站的时间将发布时间更改为2014年5月15日17:30,所以收藏网站是原创的。因此,从理论上讲,以网站上标注的时间戳为标准可以解决原始判断的问题,但所有电台都提前遵守规则,但这显然是不可能的,偶尔服务器时间可能会出现偏差,导致网站上标注的文章发布时间不准确。
第二个假设是,如果使用蜘蛛发现这篇文章的时间戳,搜索引擎会在大网站收录小网站后认为这篇文章是大网站原创的。因为根据网站的权重,搜索引擎抓取网站的频率是不同的。例如,搜索引擎的蜘蛛可能会等待新浪主页上出现新内容24小时,并在几秒钟内收到,但它可能每天只光顾一到两次小型个人网站。当一篇原创文章在一个小网站上发表时,新浪的编辑会选择它并推荐给新浪的主页,搜索引擎肯定会首先在新浪找到这篇文章,然后它会认为这篇文章是新浪原创的。因此,在显示的情况下,不能基于爬行器找到的内容的时间戳来识别原始内容。这并不是因为搜索引擎没有分配资源来实时抓取新的web内容。我相信谷歌,搜索引擎的老大,不能实时抓取新的网络内容。
第三个假设是,如果使用源网站作为原创判断,理论上与基于网站文章发布时间戳的判断相同。但在理论上,我们可以判断原创性。问题是,大多数网站在转载或复制文章后不会留下源地址。大多数自动采集程序都试图去除源地址。如果站长不配合,搜索引擎就无法使用这种方法。
通过这样一个简单的分析,按照一般的想法,搜索引擎无法严格的识别出原创。现在国内的搜索引擎一般是根据谁能提供良好的用户体验和更好的传播影响力来排名的。因为大网站实际上有更稳定的服务器支持和更好的用户体验,百度目前的情况是大网站收录小网站的内容,但搜索排名比小网站好。在网络上传输的参考PR权威性网站域名注册时间等信息基本上不是判断原创的标准,而是判断网站权重的标准。如果真的用这些项目来判断原创,小网站的原创内容会更永恒。