今天一用户杰少博客留言指出站点的robots.txt文件设置有误,我仔细地看了一下,发现确实有点问题,小改了一下,加上了屏蔽蜘蛛的内容,正好观察一下是否有的蜘蛛不按照robots耍流氓继续爬行。之前的robots是参照wp官方推荐文档设置的。
- 去除之前的针对agent为googlebot-image的allow all的设置。其实不加deny就是等于allow,不知道wp官方为什么多此一举,或者有别的意思?
- 增加了蜘蛛爬行中被标示为垃圾蜘蛛的agent,除jike外全部设置为deny。
- 去除Disallow: /wp- 以及尾部的Allow: /wp-content/uploads/,调整为明细目录,uploads目录由于没有设置deny,理应是可以被爬行的
- Disallow: /category/*/* 这个考虑了再三没有去除,原因是避免分权重,这样应该少爬行了不少页面,再观察一阵子再说了。
好了就先这样吧,下面上文件内容,有不对的地方还请各位继续指正,再次感谢!
Sitemap: http://www.tiandiyoyo.com/sitemap.xml Sitemap: http://www.tiandiyoyo.com/sitemap_baidu.xml # digg mirror User-agent: duggmirror Disallow: / # yisou User-agent: YisouSpider Disallow: / # easou User-agent: EasouSpider Disallow: / # YandexBot User-agent: YandexBot Disallow: / # Mail.RU_Bot User-agent: Mail.RU_Bot Disallow: / # AcoonBot User-agent: AcoonBot Disallow: / # Exabot User-agent: Exabot Disallow: / # spbot User-agent: spbot Disallow: / # global User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /trackback/ Disallow: /feed/ Disallow: /category/*/* Disallow: */trackback/ Disallow: */feed/ Disallow: /*? Disallow: /mylogs.txt
文章评分2次,平均分3.0:★★★☆☆
让那些蜘蛛抓去呗,抓的越多不是越好嘛
额,你排名挺高。
看来又是一个技术型博客了,玩WP就是适合折腾
呵呵 那些小众的搜索引擎都被当成垃圾蜘蛛了啊
有些目录确实不适合蜘蛛爬行,不安全同时对seo也不好···
站点地图为何要放两个?下面那个意思是对百度做了优化的呗。问题是谷歌会查看为百度优化那个地图么?歌者百度找到第一个地图后会不会忽略第二个地图呢??
其实关于这点我也搞不清。。。
sitemap是要自己去提交的,他提交不同的地址就可以了。
此外……我记得百度的sitemap权限不是公开的,只对于部分人开放
我VPS随时欢迎蜘蛛乱爬
博主辛苦,博客不错!希望能看到博主更优秀的文章!
robots.txt我还没动过
专业班子…
个人觉得robots.txt越简单越好,稍不留心可能会误杀。
怎么看出来这些就是垃圾蜘蛛的呀?
一般我们不就只需要google,baidu,bing啊等等,其他我们不用的搜索引擎,我都归类到垃圾堆里,特别是一些国外的本地引擎。
robots确实很重要的,我也是参考了好多网上的经验,才修改成现在的样子。
其实不改也没啥,改一下自己心里舒服点,也不知道几天后生效。
这个很不错~
我啥也没屏蔽,然后好像也没蜘蛛来爬
你咋知道没蜘蛛来爬呢?站长统计工具是收集不到蜘蛛信息的。
蜘蛛也有垃圾之分么 哈哈 学习了!
相对而已,比如咱们一般不会去关心易搜这个搜索引擎,其实给它的蜘蛛抓也没啥事。
这个我就写了5行吧,没禁什么东西,只禁了一些目录
是很容易出错,毕竟这是区分大小写的
要小心可别误杀了
哈哈..可别把百度给屏蔽了!
我得随时看看日志情况,省的真误杀了。