今天一用户杰少博客留言指出站点的robots.txt文件设置有误,我仔细地看了一下,发现确实有点问题,小改了一下,加上了屏蔽蜘蛛的内容,正好观察一下是否有的蜘蛛不按照robots耍流氓继续爬行。之前的robots是参照wp官方推荐文档设置的。
- 去除之前的针对agent为googlebot-image的allow all的设置。其实不加deny就是等于allow,不知道wp官方为什么多此一举,或者有别的意思?
- 增加了蜘蛛爬行中被标示为垃圾蜘蛛的agent,除jike外全部设置为deny。
- 去除Disallow: /wp- 以及尾部的Allow: /wp-content/uploads/,调整为明细目录,uploads目录由于没有设置deny,理应是可以被爬行的
- Disallow: /category/*/* 这个考虑了再三没有去除,原因是避免分权重,这样应该少爬行了不少页面,再观察一阵子再说了。
好了就先这样吧,下面上文件内容,有不对的地方还请各位继续指正,再次感谢!
Sitemap: http://www.tiandiyoyo.com/sitemap.xml Sitemap: http://www.tiandiyoyo.com/sitemap_baidu.xml # digg mirror User-agent: duggmirror Disallow: / # yisou User-agent: YisouSpider Disallow: / # easou User-agent: EasouSpider Disallow: / # YandexBot User-agent: YandexBot Disallow: / # Mail.RU_Bot User-agent: Mail.RU_Bot Disallow: / # AcoonBot User-agent: AcoonBot Disallow: / # Exabot User-agent: Exabot Disallow: / # spbot User-agent: spbot Disallow: / # global User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/cache/ Disallow: /wp-content/themes/ Disallow: /trackback/ Disallow: /feed/ Disallow: /category/*/* Disallow: */trackback/ Disallow: */feed/ Disallow: /*? Disallow: /mylogs.txt
文章评分2次,平均分3.0:★★★☆☆
我的可没有这矣详细的设置,也就允许 百度与谷歌的SITEMAP。
来看看哪些是垃圾蜘蛛~要真是垃圾的话也屏蔽不了
更多的是有人伪装成蜘蛛采集站点。这才是流量消耗的罪魁祸首。
百度和谷歌的都还行 别的爬不爬的吧 也没啥大用
垃圾蜘蛛耗流量那是相当大的!
流量倒是还行,就是看着烦。又没啥用,谁都不会用它那搜索引擎。
有时候看访问日志,确实是有些乱七八糟的蜘蛛下载了很多流量。
你写的好复杂!
什么是垃圾蜘蛛乱爬行呢。。没听过
我的写得很简单。。
这个貌似可以到百度站长平台上检测对错哦.
既然他们不管规则乱爬,那改robots还是屏蔽不了呀
如果robot对它们无效,那只能用别的方法来屏蔽了。
现在很多蜘蛛都不管robot了
恩,所以我顺便想看看哪些是无效的。