第一个阶段是,分类目录的阶段。
分类目录可以称之为“网址导航”,hao123和Yahoo是这个阶段的代表。通过人工的收集和整理,把属于各个门类的高质量网站进行罗列,减少了用户筛选网站的复杂度,直接让用户进行访问。
这是一种没有技术含量但却在互联网发展早期非常好用的方案。
第二个阶段是,文本检索的阶段。
文本检索的阶段采用了许多经典的信息检索模型,如布尔模型、向量空间模型或概率模型,用来计算用户输入的查询词(Query)与网页文本内容的相关程度。
相比于第一个阶段的分类目录方法,文本检索阶段向前跨越了“一大步”,奠定了整个搜索引擎的发展大方向。
在效果上,这一阶段的解决方案仍然“差强人意”。
第三个阶段是,链接分析的阶段。
这一阶段的搜索引擎在文本检索的基础上,深入挖掘和利用了网页中链接所隐含的信息。用现在的眼光看来,网页之间的连接关系代表了一种“推荐关系”,通过对连接的分析可以得到重要的网站。
这一阶段的典型代表就是Google所提出的PageRank链接分析技术,通过连接分析对网页重要性进行筛选,再结合文本检索阶段中的相关性,使得搜索质量有了质的飞跃。
第四个阶段是,以用户为中心的阶段。
“以用户为中心”并不是一句空话,而是最近这些年各大互联网公司一直在实践的方向。
随着搜索引擎技术的完善,一些问题逐渐浮出了水面。