我的SEO博客首页,昨天下午又更新快照了,最新为2013-10-10,感觉还不错,虽然内页的收录还没开始,这个还没开始是指在百度搜索引擎上还没有看到网站内页的展示,但实际上有没有被收录还不一定,为什么这么说呢?你是不是认为通过site语法查询,没有看见页面被收录,该页面就是没有被百度收录(以百度为例),那这个页面是不是就真的没有收录呢?你看到的网页快照时间是不是就是开始展示的时间额?比如快照时间是2013-10-7,是不是7号那天你就能查到这个页面被收录了呢,答案是否定的,一般都是7号之后,你才能发现你的网站是7号被抓取保存的快照。
要搞清楚网页快照与实际网页内容存在时间差,首先你要了解搜索引擎的工作原理,知道蜘蛛究竟是怎么在工作的,就能彻底揭开你心中的几个困惑了,比如网页快照时间为什么总是滞后于展现时间,上面提到的7号之后才能看到7号的快照?又比如,为什么网站之前的收录一直都是10几个页面,突然间一天暴增到几十上百的收录,这时候你难免会惊慌,这样的收录变化属于正常现象吗?
搜索引擎的工作原理,可以分为4个阶段,第一个是抓取,蜘蛛爬行到你的网站页面,对页面进行抓取,将网页内容下载到网页数据库,如果你的网站存在一些死链,那么蜘蛛将无法顺利完成该页面的抓取;第二个阶段是过滤,搜索引擎会通过算法对蜘蛛采集回来的内容进行过滤,去重,删除一些低质量的网页内容,经过筛选的网页内容,才能顺利进入到下一阶段;第三个阶段是建立索引,对于这些筛选合格的页面内容进行分词建立索引,什么是分词呢?简单说就是划分句子,比如“深圳SEO技术博客普及SEO基础知识”,就会划分为深圳SEO、技术博客、普及等等的组合;第四阶段是输出结果,这个输出结果就是百度结合算法,匹配用户的搜索结果展现出网页内容。这四个阶段是层级关系,所以上面提到的2013-10-7就是搜索引擎索引建立的时间,具体你什么时候看到,那是百度让它展现出来的那个时间点,所以很多时候,你突然间发现网站收录增加了不少,你查看快照时间,都是早于你现在查看时间的,我的SEO博客10号的快照,10号当天就能看到,这当然是和百度建立了一定信任度有关系的,不然我这平时的优化可就做无用功了;你发现你网站的快照不更新,很多情况下都是在搜索引擎过滤低质量页面或者重复页面的时候过滤掉了,这时候你就应该考虑检查你的页面质量和更新内容了。
本文属绯闻SEO首发: http://www.feiwenseo.com/80.html 原创不易,转载请注明出处。
SEVEN这篇写提很好,对于搜索引擎工作原理理解非常透彻
哈哈 能理解到就好