接下来才进入真正的索引与收录网页过程。从上面的介绍可以看出,FreshBot提交的URL列表是相当庞大的,根据语言网站位置等不同,对特定网站的索引工作将分配至不同的数据中心完成。整个索引过程,由于庞大的数据量,可能需要几周甚至更长时间才能完成。
正如上文所言,DeepBot会首先索引优先级较高的网站/网页,优先级越高,出现在Google索引数据库及至最终出现在Google搜索结果页面中的速度便越快。对新建网页而言,只要进入到这个阶段,即使整个索引过程没有完成,相应的网页便已具备出现在Google索引库中的可能,相信许多朋友在Google中使用site:somedomain.com搜索时常常看到标注为补充结果只显示网页URL或只显示网页标题与URL但没有描述的页面,此即是处于这一阶段网页的正常结果。当Google真正读取分析缓存了这个页面后,其便会从补充结果中逃出而显示正常的信息。当然,前提是该网页具有足够的链接,特别是来自权威网站的链接,并且,索引库中没有与该网页内容相同或近似的记录(Duplicate Content过滤)。
对动态URL而言,虽然如今Google宣称在对其处理方面已不存在障碍,不过,可以观察到的事实仍然显示动态URL出现在补充结果中的几率远大于使用静态URL的网页,往往需要更多更有价值的链接才能从补充结果中逸出。
而对于上文中所提及到的F类,即未更新的网页,DeepBot会将其时间戳与Google索引数据库中的日期比对,确认尽管可能搜索结果中相应页面信息未来得及更新但只要索引了最新版本即可考虑网页多次更新修改的情况至于G类即404 URL,则会查找索引库中是否存在相应的记录,如果有,将其删除。