再说robots.txt和sitemap

前一阵尝试robots.txt来优化wordpress,在试用过一段时间之后出来了几个小问题,牵涉到robots.txt和sitemap的问题,用最近甚至连已经产生的sitelink也没有了,最近一直在研究这方面的问题,今天闲来无事,查看了几个比较好的Wordpress网站的robots.txt文件,大家也可以直接查看我的robots.txt文件来做参考。这篇文章就算是对前面几篇文章的总结吧,很希望对大家有所帮助。

1、参照wordpress官方robots.txt的优化方式

WordPress Codex中有一篇关于WordPress优化的文章,里面介绍了很多WordPress优化的知识,其实也提到了wordpress中的robots.txt优化的问题,并给出了一个Demo,可以拿来直接使用,也可以根据自己的情况稍做修改:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# digg mirror
User-agent: duggmirror
Disallow: /

Sitemap: http://www.example.com/sitemap.xml

2、要有针对baidu的sitemap

在前面提到的sitemap中都是直接使用Google XML Sitemaps这个插件,而一个公认的问题就是wordpressbaidu似乎并不友好,像这个sitemap百度也不并不认可,对于百度来说,他似乎更喜欢文本的东西。所以我们要找一个专门针对百度的sitemap生产插件。这里推荐一个叫作Baidu Sitemap Generator插件,他可以生成纯文本的sitemap_baidu专门供百度使用。此外这个插件还要生成一个html文件,把这个文件放置到首页可以增加百度的好感,就像我在导航中的那个网站地图一样。

3、针对不对搜索引擎优化robots.txt

在robots.txt的规则中,第一条规则是用来声名针对的搜索引擎类型的,比如上面的User-agent: *就是对所有搜索引擎都有效;而User-agent: Googlebot则是专门针对Google的,User-agent: baiduspider是专门针对百度搜索引擎的。这个非常有用,特别是对于百度,可能根据其收录的特点来做很多优化

4、要勇于探索

和我之前一样,很多人没有注意到robots.txt的重要性,或者直接使用了默认的robots.txt,不管你懂不懂,都要去尝试一下,就是一个简单的txt文件又能复杂到哪里呢?生命在于折腾,学学人家万戈吧。就算是出了问题也没有什么大不了,不行就再改回来嘛……