robots.txt运行某个蜘蛛 禁用其他蜘蛛的写法

下述代码实现了允许百度,禁用其他蜘蛛的功能呢。

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /

其他写法总结如下:
(1)禁止所有搜索引擎访问网站的任何部分。

User-agent: *
Disallow: /

(2)允许所有的robots访问,无任何限制。

User-agent: *
Disallow:
或者
User-agent: *
Allow: /

还可以建立一个空文件robots.txt或者不建立robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:百度baiduspider)

User-agent: BaiduSpider
Disallow:/

(4)允许某个搜索引擎的访问(还是百度)

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /

这里需要注意,如果你还需要允许谷歌bot,那么也是在“User-agent: *”前面加上,而不是在“User-agent: *”后面。

(5)禁止Spider访问特定目录和特定文件(图片、压缩文件)。

User-agent: *
Disallow: /AAA.net/
Disallow: /admin/
Disallow: .jpg$
Disallow: .rar$

这样写之后,所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明,而不要写出“Disallow:/AAA.net/ /admin/”。

以上内容整理自:http://www.chinaz.com/web/2011/1117/221058.shtml


未经允许不得转载:阿藏博客 » robots.txt运行某个蜘蛛 禁用其他蜘蛛的写法