SiteLink、Robots.txt、SiteMap几个问题

在前面的几篇博客中,我陆续提到了Robots.txtSiteLink的问题,也有朋友问到了SiteMap的问题。包括了使用robots.txt来优化WordPress网站产生SiteLink(站内链接)的几个可能有用的技巧。然而最近我发现了一个很奇怪的问题:原来已经存在的SiteLink突然消失了,无论是通过Google直接搜索还是通过Google网站管理人员工具都已经发现没有了Sitelink。

1、SiteLink消失了

自从前面那篇 dudo.org也终于有了SiteLink(站内链接)了之后没有几天,SiteLink就消失了,sitelink_in_google_webmaster_tool

 

这个问题有些怪异,一般来说网站没有发生大的变动已经生成的SiteLink不会丢失。

2、上次的Robots.txt存在问题

我仔细检查了一下可能出现问题的每一个角落,我发现当我使用site:dudo.org进行查看收录状况的时候,发现最近一个礼拜的更新都没有被收录,这很有可能是网站被降权或者设置有问题。经过研究我发现上次在Robots.txt里的一条规则Disallow: /*.php$,存在问题,它虽然屏蔽了php文件收录,但是同样也屏蔽掉了index.php的收录,这是绝对不可以的。因为你最新的文章是通过index.php引导蜘蛛进入的,如果这个页面被拒绝访问那么就很难发现和收录你的新文章。所以你要添加一个新规则:Allow:/index.php

8月1日更新

但有一个问题是:我在Robots.txt中已经指明了SiteMap,最新的文章会出现在里面,应该不会错过被收录,所以这个问题很另人纠结。不过,允许收录index.php是对的。

3、SiteLink和SiteMap的区别

这是几个朋友问到的问题。其实差别很容易记住,SiteLink是google自动生成的,他出现在Google的搜索结果中,不需要你提交。这些链接是访问你网站中Google认为比较重要页面的快捷方式。

SiteMap则是你的网站自己生成的,用来引导Google等搜索引擎如何访问你页面的。它需要你自己提交给Google,至于采不采用则由Google来决定。当然对面网站不太复杂的来说,不使用SiteMap也没什么影响。

SiteLink和SiteMap之间没有必然的联系。

4、谨慎使用Robots.txt

由此看来,Robots.txt对网站的收录情况起着举足轻重的作用,所以一定要谨慎使用。对于规则一定要使用相关工具验证,而且使用之后要注意前后的变化。对于异常变动应该尽快处理。对于使用了前面我的robots.txt规则的同学要赶紧检查一下了。