在前面的几篇博客中,我陆续提到了Robots.txt、SiteLink的问题,也有朋友问到了SiteMap的问题。包括了使用robots.txt来优化WordPress、网站产生SiteLink(站内链接)的几个可能有用的技巧。然而最近我发现了一个很奇怪的问题:原来已经存在的SiteLink突然消失了,无论是通过Google直接搜索还是通过Google网站管理人员工具都已经发现没有了Sitelink。
自从前面那篇 dudo.org也终于有了SiteLink(站内链接)了之后没有几天,SiteLink就消失了,![]()
这个问题有些怪异,一般来说网站没有发生大的变动已经生成的SiteLink不会丢失。
我仔细检查了一下可能出现问题的每一个角落,我发现当我使用site:dudo.org进行查看收录状况的时候,发现最近一个礼拜的更新都没有被收录,这很有可能是网站被降权或者设置有问题。经过研究我发现上次在Robots.txt里的一条规则Disallow: /*.php$,存在问题,它虽然屏蔽了php文件收录,但是同样也屏蔽掉了index.php的收录,这是绝对不可以的。因为你最新的文章是通过index.php引导蜘蛛进入的,如果这个页面被拒绝访问那么就很难发现和收录你的新文章。所以你要添加一个新规则:Allow:/index.php。
8月1日更新
但有一个问题是:我在Robots.txt中已经指明了SiteMap,最新的文章会出现在里面,应该不会错过被收录,所以这个问题很另人纠结。不过,允许收录index.php是对的。
这是几个朋友问到的问题。其实差别很容易记住,SiteLink是google自动生成的,他出现在Google的搜索结果中,不需要你提交。这些链接是访问你网站中Google认为比较重要页面的快捷方式。
SiteMap则是你的网站自己生成的,用来引导Google等搜索引擎如何访问你页面的。它需要你自己提交给Google,至于采不采用则由Google来决定。当然对面网站不太复杂的来说,不使用SiteMap也没什么影响。
SiteLink和SiteMap之间没有必然的联系。
由此看来,Robots.txt对网站的收录情况起着举足轻重的作用,所以一定要谨慎使用。对于规则一定要使用相关工具验证,而且使用之后要注意前后的变化。对于异常变动应该尽快处理。对于使用了前面我的robots.txt规则的同学要赶紧检查一下了。
除非特别声明,dudo博客文章均为原创,转载请以链接形式注明本文链接
因为基本上php文件都不需要被收录,除了index.php 现在只允许访问index.php 其它的还是禁止 不知道有没有问题这样
[回复]
Mucid 回复:
八月 1st, 2010 at 06:36
@dudo, 有伪静态的话,index.php也可以禁用吧。。
[回复]
dudo 回复:
八月 1st, 2010 at 09:23
@Mucid, 还有一个奇怪的问题,比如我昨天写好的文章,使用Google搜索一天之内收录的文章,没有任何结果,但是如果把时间范围改在一个星期之内,就有结果,这说明已经收录了。很奇怪
[回复]