互联网每天都会产生数以万计的文章,在我们搜索的时候,如何能快速的找到这些内容,只有了解了这些规则,我们才能更好的进行网站优化和推广,提高网站排名。本文介绍一下正排索引和倒排索引。
搜索引擎工作原理简单介绍:
第一步:搜集,爬取大量的网页,去搜集这些网页内容。
第二步:建立索引,在经历了第一步后,搜集了大批的网页,将这些网页抓取过来后,显然要进行下一步处理,处理过程必然很复杂,简单讲就是建立了正排索引和倒排索引。
第三步:就是根据用户搜索,依靠倒排索引技术,提取关键词,展示相关页面。
正排索引:
简单来说就是将文章按照一定规则,建立目录,类似书本的目录页,或者数据库的ID,
比如我们平常操作软件查询内容的时候,其实是在后台生成了一条SQL查询语句,比如从标题和内容中查询上海SEO优化,生成的语句如下
文章表)wheretitlelike“%网站SEO优化%”
SQL语句会按数据表逐行检索,并将查询的数据结果反馈给我们,这种查询效率比较低,显然对一款并发量和数据量不大的软件可以这样做,但并不适合海量数据的搜索引擎,这个时候就出现了倒排排索引技术。
倒排索引:
将抓取的文章进行分词,用户输入关键词后,将关键词和网页匹配,快速的提取相关网页,即:关键词=网页。
比如:
上海网站优化推广排名,可以提取关键词为上海+网站+优化+推广+排名。
上海seo培训,可以提取关键词为上海+seo+培训。
利用倒排索引技术,提取关键词后,并记录了关键词出现的位置,频次,将文章归集按照一定规则进行分类存储。
倒排索引的应用:
关键词权重由左到右依次递减
例如:
未优化的标题:上海可以做网站优化排名的公司有哪些
优化过的标题:上海网站优化排名公司有哪些
关键词匹配度越高排名越好
例如:
有人搜索上海网站优化,经过倒排索引分词后建立了词库,搜索后则进行匹配,关键词匹配度高,则更可能排在前边。
举个例子:
上海网站优化,A网页完全匹配:即上海网站优化,B网站只匹配了上海优化4个关键词,在同等条件下,A网页排名要更靠前。