一张图浅析百度搜索引擎抓取页面排名原理过程

  • A+
所属分类基础知识

搜索引擎(蜘蛛)是抓取来抓取网页的,基础流程或原理什么?

一、抓取

搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常形象的称之为蜘蛛(Spider)。各大搜索引擎的蜘蛛都有自己的名称,谷歌蜘蛛:Googlebot 百度蜘蛛:Baiduspider 360蜘蛛:360Spider 搜狗蜘蛛:Sogou web spiderSpider

首先顺着网页中的超链接、外链,从这个网站爬到另一个网站,去跟踪网页中的链接,从网页发现并访问更多的网页,在互联网中发现搜集大量的这些网页信息,将网页从互联中搜集到自己的临时数据库中,这个过程称为抓取。

蜘蛛抓取过程中,首先访问到的是网站根目录下的robots.txt文件,该文件是网站主设置蜘蛛抓取目录权限的文件,所以特别重要,不能设置错误,把蜘蛛“拒之门外”就无法抓取了。另文说明robots.txt文件的详细设置。

抓取的过程中,搜索引擎蜘蛛一般有两种策略:深度抓取和广度抓取

深度抓取是进入你的首页,再到栏目页A,接着抓取你的内容页抓取完了之后,再返回抓取并列的栏目页B,再到下面的内容页。

广度抓取是先抓取首页,再抓取各个栏目页,最后抓取各栏目下的内容页。

通常老站多是深度抓取,因为栏目相对固定了;新站多是广度抓紧,蜘蛛以判断该站的分类目录和网站的主题内容。

建站时注意:不利于蜘蛛抓取识别的内容

1.网站使用js,flash,iframe框架(层级多),镶嵌table,需要登录后的页面都是不利于蜘蛛抓取的,应该尽量避免。

2.图片太多(加alt属性辅佐识别)

3.服务器保持稳定,别三天两头网站打不开,那就什么也不用玩了。

二、分析过滤

为了避免重复爬行和抓取网址,造成太多垃圾,从而影响用户体验,搜索引擎在抓取之后会通过各种算法对所有的网页进行过滤,过滤一些作弊的网站,如低质量的内容页面,或内容非法的,或是大量采集的,文不对题,对用户没有价值的内容进行降权和摒弃,提取展示优质的网站和信息页面进入数据库。

三、存储库索引

搜索引擎会对信息进行有质量提取和组织建立索引库,当有用户搜索哪个关键词时,搜索只需要在存储索引数据库中进行查找。

众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页会待在普通库,再差一些的网页会被分配到低级库去当补充材料。目前60%的检索需求只调用重要索引库即可满足,这也就解释了为什么有些网站的收录量超高流量却一直不理想。

  那么,哪些网页可以进入优质索引库呢。其实总的原则就是一个:对用户的价值。包括却不仅于:

  1,有时效性且有价值的页面:在这里,时效性和价值是并列关系,缺一不可。有些站点为了产生时效性内容页面做了大量采集工作,产生了一堆无价值面页,也是百度不愿看到的.

  2,内容优质的专题页面:专题页面的内容不一定完全是原创的,即可以很好地把各方内容整合在一起,或者增加一些新鲜的内容,比如观点和评论,给用户更丰富全面的内容。

  3,高价值原创内容页面:百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。

  4,重要个人页面:这里仅举一个例子,科比在新浪微博开户了,需要他不经常更新,但对于百度来说,它仍然是一个极重要的页面。

四、展示排名

数据抓取过虑完毕,接下来要做的就是排名了。那么在数以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,这么庞大的数据里也许花的时间得很长才可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?其实百度在建立索引库时,就已经把排名排好了。主要机制是:根据用户搜索词进行分词,分词都有一个页面库,当用户搜索到这个词时就直接从这个页面库里寻找,从而快速展现在网民面前。页面库里会根据词热度、新的页面加入等因素进行重新排名,当然这个更新有一定的时间,并不是实时的每分每秒的更新。所以,新站即使被收录了,也不能马上有排名;网站被K排名倒时掉得快,哈哈。还有,如果网站更换了关键词,用老关键词搜索,还是会展现出来的,直到该搜索词里的索引库更新。

总面言之:

当我们在搜索引擎看到的只是一结果,搜索引擎会根据信息的有效性,原创性和信息的认可度,网站自身权重等综合算法给于相应的排名显示,对搜索用户的搜索做统计,最后根据该用户搜索习惯给出相应结果。

来源:,欢迎分享本文。

发表评论

看不清?点击更换

欢迎大家盖楼评论,头像就看运气啦....