任何搜索引擎在抓取网站数据的时候,会先搜索网站根目录下是否存在robots.txt文件,如果存在,则按照文件内的配置来决定该网站内哪些文件是可以被抓取的,如果不存在,则默认所有该网站下的文件都可以被搜索引擎抓取。如果你的网站被搜索引擎收入的错误页面太多,你可以用disallow某个错误页面的方式来进行修正。
wordpress官方提供了标准样式,见Search Engine Optimization for WordPress最后一段内容。
Sitemap: http://www.example.com/sitemap.xml
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
# digg mirror
User-agent: duggmirror
Disallow: /
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
*开头,百度不支持。
看样子是滴
这是标准的写法吗,是除了文章都不抓取?
算是wp的推荐写法,差不多就是只抓文章了。
收藏 以后有空试下