搜索引擎收录网页的过程涉及两个主要角色:FreshBot和DeepBot。首先,FreshBot在互联网上持续扫描,寻找网页的URL,构建庞大的URL列表。它的任务不是直接索引,而是寻找网页中的链接,确保这些链接被DeepBot发现。尽管存在效率上的争议,但FreshBot在访问时没有“排他性”,不同数据中心的机器人可能会短时间内多次访问同一页面,而DeepBot则负责索引和缓存页面,避免重复。
FreshBot记录的信息包括URL、时间戳和网页头部信息(存在争议,但一般认为它会读取)。遇到不可访问的网页,FreshBot会记录并稍后重试。FreshBot的索引工作按优先级分类,A(新建网页)、B(更新的旧网页)、C(重定向)、D(动态URL)、E(指向其他文件的链接)等,优先级由高到低。网页的索引过程可能需要几周,且根据语言和位置分配到不同数据中心。
当网页进入DeepBot的索引库,即使索引未完成,也可能出现在搜索结果中。对于新建网页,只要有足够链接,特别是权威网站的,即使未完成索引,也可能显示。动态URL和未更新的网页(F类)需要满足特定条件才能从补充结果中显示。最后,数据中心间通过连续的同步过程更新网页的最新版本,这在BigDaddy更新后变得更加实时。
扩展资料
基本概述