搜索引擎的发展轨迹
1997年-2001年:人工目录
2001年-2004年:以关键词为核心的文本分析阶段
2004年-2009年:以反向链接为核心算法的阶段
2009年-现在:以满足用户人性化需求的社会化综合构架。百度开始记录浏览行为然后衡量网站的质量。
不变的搜索引擎算法:当用户搜索到您网站有排名的关键词,在浏览器上点击你的网站,如果用户进了您的网站做出了立即跳出,那么搜索引擎会认为您的网站质量度不高,从而使得排名下降。
下面开始介绍搜索引擎
搜索引擎主要的工作内容就是信息收集,信息处理,以及排名的优化。
所谓的抓取,就是运用抓取程序来完成收录的过程,搜索引擎抓取的程序主要是蜘蛛个浏览器都有自己的专有蜘蛛他在不同的浏览器里也有自己不同的名字。例如,在百度里面叫百度蜘蛛,Baiduspider。在谷歌里面叫谷歌机器人Googlebot。在360里面又叫做360蜘蛛,360Spider。
搜索引擎蜘蛛如何抓取
有了蜘蛛我们还要考虑的是怎么让蜘蛛来抓取,首先想到的是外部链结,通过锚文本的形式发布可点击的网站文字链接引来蜘蛛,或者是提交链接,就是向搜索引擎主动提交自己的网站,还有一个比较特殊的就是让蜘蛛自己过来抓取,尽量的多做原创文章,最好图文结合,也就是要做高质量的内容这样就会很快的被录取的。
如何知道搜索引擎蜘蛛有没有爬取过自己的网站
1可以用站长工具查看抓取频率,
2查看服务器日志
3网站的收录情况
URL影响搜索引擎的收录
1路径过长不易被搜索引擎抓取,影响到网站的收录。
2中文路径,中文路径搜索引擎是不识别的,会将中文翻译成特殊符号与字母,这样URL导致过长。
搜索引擎的过滤机制
搜索引擎的过滤也可以理解为不收录,大量的无价值页面,或者是死的无效的链接,有欺骗含义的页面都是不会被录取的是要被过滤掉的。这样也是为了节省服务器资源,节省搜索引擎为用户提供优质页面的工作时间。影响因素可分为两个,一个是识别因素,搜索引擎不识别:JavaScript,flash,iframe图片。二个是页面的质量,页面相似度不能超过80%,而且原创相关内容最好。