Wordpress robots.txt 文件的搜索引擎优化说明及技巧解析. 往下看之前, 先扫盲下 Robots.txt 文件的基础知识.
Robots.txt语法
Baidu Robots.txt
Google Robots.txt
Google:使用 robots.txt 文件拦截或删除网页
百度搜索帮助中心有一段感觉不是很靠谱的(http://www.baidu.com/search/robots.html)关于Robots.txt的说法:
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
言归正传, 下面是我的 Wordpress Robots.txt 的写法:
User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /comments/feed Disallow: /category/*/* Disallow: /category/ Disallow: /category/*/page/ Disallow: /page/ Disallow: /tag/ Disallow: */trackback Disallow: */feed Disallow: /*?* Disallow: /*? Disallow: /?s= Allow: /wp-content/uploads Sitemap: http://www.sinzi.org/sitemap.xml User-agent: Googlebot # disallow all files ending with these extensions Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$
Wordpress Robots.txt 的写法, 根据自己的实际情况写吧.