草根们做网站都非常在乎自己网站在搜索引擎中的表现,因为大家都没有太多资本去像大公司那样砸广告,于是自己网站的各项SEO指数都被特别看重,其中百度快照时间也是其中的重要一项。虽然,在百度官方多次说明百度快照跟网站权重及排名没关系,大家可以不必把这个东西放在心上,但是不知道是大家的习惯需要长时间才能改变还是其他什么原因,大家似乎依然非常重视这么个东西,甚至在某些场合是衡量网站品质的一项重要指标。就如虽然谷歌都只有几个点的市场份额大家还是看重PR值一样。 大概从去年的五左右月份开始,百度的某一次算法更新后,我的其中一个论坛的快照突然回到了2011年9月13号,这种情况持续了半年多,直到最近一次偶然让我好像发现点什么了。有一天我突然查看一下我的论坛首页源代码,发现其中有一篇在首页展示精华的帖子的发帖时间就是异常快照的时间。当时我也不太确定是不是跟这个有关系,我就抱着试试看的态度去把这个帖子的精华取消,也就是不让这个时间再首页展示出来。不到一周时间发现快照真的恢复正常,而到现在依然正常每天更新快照。而我维护的另外一个卫生纸企业站也是很久以前的快照时间,更新后虽然有所延迟,但不是太离谱。 于是我初步得出结论,那就是百度快照时间跟那个页面上的时间有关。为了验证这个,我查看了很多快照异常的网站,结果还真的是验证我所猜想的。 第一个网站是一个普通博客,这个网站没什么内容,但发现其快照时间就是其首页代码中包含最久的那个时间。 第二个网站是一个普通传统企业的商城。发现这个网站的百度快照是2014年1月26日,而我发现这个网站上有一篇存在首页上发表于这天的一篇商城公告。 第三个网站是一个企业的用户交流论坛。这个网站的百度快照时间是去年的12月7日,日看到其首页源代码是包含这个时间,当然还包括其他的时间,至于为什么是这个时间为快照时间,下面总结中我会解释。 除此之外我验证了近五十个网站,包含阿里云的官方论坛等一些大型网站,特别还有那种使用标签中带版本时间的开源程序建的站都发现这个问题,而且都被一一验证;上述几点个只是比较验证我最初的猜想的证据。而我通过对几十个网站的快照分析,得出了以下几点结论,而且都已经通过了我的验证。 第一,异常的百度快照时间确实在很多情况下跟网页中包含的时间相关的信息有关系,至少我验证的几十个都是如此。 第二,就算异常快照时间的网站首页的源代码不包含标准格式的日期,就算是包含UINX时间戳,快照时间也会是对应的标准时间。 第三,不是网页中出现时间信息百度快照就会异常,就如我在说第三个网站的时候说的那样,那个网站包含了很多个时间信息,但唯独总是其中的一个。那是因为快照异常的前提条件是,这个出现在网页中的时间信息长时间存在,如果两个时间信息出现的时间长度一致,则异常快照是日期更后的一个。 第四,我总共分析了几十个网站,也跟进分析了几个典型网站,发现这些网站在没有修正的情况下,会出现快照正常情况,但一般持续几天后又回到异常状态。 第五,对于在中包含程序发布日期的,一般的中小型网站都会出现快照异常现象,而且这个异常事件就是中的程序发布日期。