前一阵尝试robots.txt来优化wordpress,在试用过一段时间之后出来了几个小问题,牵涉到robots.txt和sitemap的问题,用最近甚至连已经产生的sitelink也没有了,最近一直在研究这方面的问题,今天闲来无事,查看了几个比较好的Wordpress网站的robots.txt文件,大家也可以直接查看我的robots.txt文件来做参考。这篇文章就算是对前面几篇文章的总结吧,很希望对大家有所帮助。
1、参照wordpress官方robots.txt的优化方式
在WordPress Codex中有一篇关于WordPress优化的文章,里面介绍了很多WordPress优化的知识,其实也提到了wordpress中的robots.txt优化的问题,并给出了一个Demo,可以拿来直接使用,也可以根据自己的情况稍做修改:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*# digg mirror
User-agent: duggmirror
Disallow: /Sitemap: http://www.example.com/sitemap.xml
2、要有针对baidu的sitemap
在前面提到的sitemap中都是直接使用Google XML Sitemaps这个插件,而一个公认的问题就是wordpress对baidu似乎并不友好,像这个sitemap百度也不并不认可,对于百度来说,他似乎更喜欢文本的东西。所以我们要找一个专门针对百度的sitemap生产插件。这里推荐一个叫作Baidu Sitemap Generator插件,他可以生成纯文本的sitemap_baidu专门供百度使用。此外这个插件还要生成一个html文件,把这个文件放置到首页可以增加百度的好感,就像我在导航中的那个网站地图一样。
3、针对不对搜索引擎优化robots.txt
在robots.txt的规则中,第一条规则是用来声名针对的搜索引擎类型的,比如上面的User-agent: *就是对所有搜索引擎都有效;而User-agent: Googlebot则是专门针对Google的,User-agent: baiduspider是专门针对百度搜索引擎的。这个非常有用,特别是对于百度,可能根据其收录的特点来做很多优化
4、要勇于探索
和我之前一样,很多人没有注意到robots.txt的重要性,或者直接使用了默认的robots.txt,不管你懂不懂,都要去尝试一下,就是一个简单的txt文件又能复杂到哪里呢?生命在于折腾,学学人家万戈吧。就算是出了问题也没有什么大不了,不行就再改回来嘛……
不管怎样是沙发吧,有本事美女左大腿~哈哈
[回复]
百度的 sitemap 就是 柳城的作品。 蛮好的。 柳城做了一个很好的插件了。。
他是我的友链。。 哈哈
[回复]
dudo 回复:
八月 4th, 2010 at 23:34
你很强大,这么好的博客上做了链接,嗯……
[回复]
。。弄错了。 柳城是我这个号的首页友链。
[回复]
dudo 回复:
八月 4th, 2010 at 23:34
啊?是他做的插件
[回复]
呃,第三小点的标题是不是有点问题,内容是针对特定搜索引擎优化,标题确实不对……
呵呵,不知道对不对~~
[回复]
dudo 回复:
八月 4th, 2010 at 23:34
哈哈 看到了 我去修改一下,你看得真仔细 :)
[回复]
自己的博客没有对百度做专门的优化,所以只用了个Google的sitemap。有一个站点用了柳城的那个插件。
[回复]
robots还是不要乱动的好
[回复]
我还是百度算了,随他
[回复]
比起我的那个ROBOTS.TXT,增多了好多
勇于探索,好好折腾,呵呵
[回复]
所谓的折腾就是更改、更正、重复,直至找到好办法解决出现的问题或者是到达一个更好的目标
[回复]
那天参照的大哥的robots,把自己没有Disallow都加进去了,现在disalow了好多,我想只要可以收录文章和页面就行,大哥为什么要alow
uploads啊,被百度发现了要耗很多流量的,除非做好防盗链。
[回复]
dudo 回复:
八月 4th, 2010 at 23:33
的确有盗链的问题,不过你的这个目录下要是没有音乐一类的大文件话不怕被发现,如果有的话还是屏蔽掉吧
[回复]
到现在还没添加sitemap上去
[回复]
我什么都没写的,sitemap就直接在网上弄代码过去
有空回访哦,最近写了原创,请多多指教
[回复]
dudo 回复:
八月 4th, 2010 at 09:27
嗯 网上成熟的可以直接用,但是也要根据自己的实际情况
[回复]
学习鸟~·~希望回访。
[回复]
dudo 回复:
八月 4th, 2010 at 09:26
软件街,我经常去,谢谢
[回复]
很有用
[回复]
# Google AdSense 这个是屏蔽什么的啊?
[回复]
dudo 回复:
八月 4th, 2010 at 09:25
是不是防止把GG AD内容当成网站内容的?我估计的
[回复]
Allow: /wp-content/uploads
为什么要这句
这里面都是附件,有必要让蜘蛛爬么?
[回复]
dudo 回复:
八月 4th, 2010 at 23:32
因为像图片啊什么的都在这个目录下,Google百度的图片搜索有时候也会带来一定的流量
[回复]
感觉挺复杂的~~~zblog这方面做的还行
[回复]
dudo 回复:
八月 4th, 2010 at 23:31
不知道是什么原因,百度来的访问量很少很少
[回复]
话说百度不是要支持谷歌地图了吗?内测结束没?
———-
热。。。
[回复]
dudo 回复:
八月 4th, 2010 at 23:30
咦?怎么没有听说过此事?你在哪里看到的?
[回复]
要这么复杂吗!?
[回复]
dudo 回复:
八月 4th, 2010 at 23:29
把简单的问题搞复杂了,不过现在算是弄明白了
[回复]
这几天要来折腾robots,看看有什么效果
[回复]
dudo 回复:
八月 6th, 2010 at 21:01
@老张博客, 欢迎分享一下经验啊,我最近有点迷糊
[回复]
这些东西以后有空研究研究。
[回复]
dudo 回复:
八月 6th, 2010 at 21:01
@猪八戒, 这个还是蛮有用的
[回复]
责两个东西都蛮有用的~
[回复]
随风飘过,留下脚印!
[回复]
我的sitelink也是被你之前介绍的robot弄没了,唉
[回复]
dudo 回复:
八月 11th, 2010 at 21:50
@志言, 我的方法把tag给屏蔽掉了,我解除屏蔽之后以回来了,感觉那些Tag都没有用……你把Tag设置成allow几天就回来了
[回复]
我想问这一条:Disallow: /wp-content/plugins
但是标签云在这个PLUGINS里面啊,用GOOGLE站长工具老是显示标签云的抓取错误··怎么办呢?是不是把这一句去了,还是加一句ALLOW里面标签云插件的文件夹呢?会不会矛盾呢?
[回复]
不错,学习一下.http://www.hsb123.com
[回复]
怎么回事啊 怎么会被屏蔽呢
[回复]
学习呀,能简单介绍一下都是什么意思就好了。
[回复]
好像 知道了什么。
[回复]
额,百度真恶心,各种搞特殊
[回复]