搜索引擎原理大致分为网页收集预处理用户查询三步。预处理简单点说就是把抓取到的网页分成一个一个关键词与网页进行对应,所以一个网页就会被分成非常多的关键词。词怎么分,对标词是怎么搜索。这样在排序展现的过程中,同样起到了十分重要的作用。
基于词典进行的分词
·何为词典:搜索引擎自己的词库,注意是词并不是字搜索引擎会有自身的词库集合称为词典,假设一篇文章内容中800个字被拆分了350个词,那么对标词典该篇文章分词为350个词。
·正向最大匹配:由左到右,匹配最长的那个词举例:SEO优化公司,使用正向最大匹配,优先匹配到的是SEO优化。
·逆向最大匹配:由右到左,匹配最长的那个词使用逆向最大匹配,优先匹配到为优化公司。
·最小匹配:通过词典本身,匹配最小粒度的词组。最小匹配,优先匹配到SEO。
基于统计进行的分词
·何为统计:分析网页内容,将相邻且出现次数最多的词列为目标分词
·统计后计入词典:通过统计发现新词,并写入到词典
·词频计算:利用TFDF等算法,计算当前网页与哪些词更相关。
那中文分词对我们SEO有何帮助呢
大家都知道网站百分之八十的流量源于长尾关键词,很多长尾关键词都是包含我们的业务词,一个长尾词通过中文分词后可匹配到我们所要优化的目标关键词,可同时优化几个关键词,间接提升核心关键词排名。