网络推广

首页 > 网络推广 > 正文内容

搜索引擎如何抓取网页

襄助网络2周前 (11-09)网络推广662

搜索引擎的整个工作过程包括三个部分:

1、抓取

搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么百度,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。

互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。它不停的向各种网站发送请求,将所得到的网页存储起来。

搜索引擎如何抓取网页

通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。有很多细节要被考虑。比如避免循环链接的网页解析网页文档,提取里边的链接当链接无法打开时对错误进行处理等。

2、索引

索引就是帮助程序进行快速查找的。大家都用过英汉词典。字典前边的按照单词首字母排列的部分就是索引。搜索引擎也一样。这里要介绍第一个最重要的数据结构:反转列表。

搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。

每一个网络文档不仅只有文本信息。它还可能包括文件名,引用等部分。为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。每一部分的单词都要被加入到这个词属于此部分的反转列表里。

3、搜索

有了索引,就可以快速找到所需内容了。前边说过搜索引擎根据用户的信息需求查找匹配的内容。信息需求来自于用户输入。搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。

4、排序

用户输入的关键词,就可以查看到相关的内容了。这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。

排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。

相关文章

新手如何进行seo优化

新手如何进行seo优化

对于一个SEO初学者新手而言,可能对SEO的基础理论以及SEO的原理性的知识掌握得不够透彻,导致没有目标,没有方向,不知道从哪里下手,需要做什么准备,往往大部分新手站长就因为这些事情而放弃。其实网站优...

新浪微博的文章会被百度收录吗

新浪微博的文章会被百度收录吗

当然会,百度是当今中国最大的搜索引擎网站,只要一摆,就会从百度网打开自己想要的任何资料 文章被收录原因一:醒目又符合人们搜索习惯的关键词和标题,标题是文章的首要部分,也是百度搜索引擎首先抓取到的...

企业要想自己的网络推广有效果一定离不开好的网络推广平台

  企业要想自己的网络推广有效果,一定离不开好的网络推广平台,好的、有效的网络推广可以帮助企业提高知名度、增加销量、获取更多利益,所以这也是越来越多企业注重网络推广的原因。接下来襄助网络将为大家汇...

时光流转优化网站的方式也要因时而异

时光流转优化网站的方式也要因时而异

  随着时光的流转,一些问题的处理方式都会发生改变,网站的优化也是这样,如果打算优化一个网站,那么在刚开始制作网站的时就要为后期的网站优化埋下伏笔,构建出利于优化的种种条件,以此来促进后期网站优化能够...

什么是百度推广实况

什么是百度推广实况

登录百度推广后台,下方工具栏-推广实况推广实况,默认查询时间当前,默认搜索地域当前,投放设备可选,输入关键词查询即可电脑和手机的展现均有,仅可查询排名情况你可能会说,在百度前台我也可以看排名啊但是你需...

如何让网站优化持续的发挥作用

如何让网站优化持续的发挥作用

越来越多的企业已经意识到了网站优化的重要性,而且经过一段时间的努力,网站优化也确实给企业网站带来了更多的流量或者是意向客户,并且,当用户在搜索引擎上搜索网站时,企业做优化的主要的关键词和长尾关键词在排...

现在,非常期待与您的又一次邂逅

我们努力让每一次邂逅总能超越期待