一、Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。txt是一个协议,而不是一个命令。但是,Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。如果搜索引擎都不遵守这个协议,那么互联网将受到不可估量的灾难,所谓无规矩不成方圆。
二、在搜索引擎都遵守游戏规则的前提下,robots协议将为我们的网站保驾护航。下面了解robots协议文件的写法。
1、Robots有三个命令,两个通配符。三个命令分别为User-agent、Disallow、Allow;两个通配符分别为*、$。
2、下面分别阐释:
(1)、User-agent,直接翻译成中文就是用户代理,在这里的作用是指定搜索引擎的种类。例如:User-agent: * 这里的指定所有的搜索引擎种类。
(2)、Disallow,不允许,在这里的作用就是指定搜索引擎不允许访问的文件、目录或路径。例如:Disallow: /admin/ 这里定义是禁止爬取admin目录下面的目录
(3)、Allow,允许,在这里的作用就是告知搜索引擎可以访问的文件、目录或路径。例如:Allow: /admin/ 这里定义是允许爬寻admin目录下面的目录
(4)、*,通配符,代替代替一个或多个字符。例如:Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。
(5)、$,通配符,定义文件的后缀。例如:Disallow: /admin/.jpg$ 禁止抓取admin目录下面的所有的.jpg格式的图片。
通过这三个指令和两个通配符的组合,可以写出任何规定的协议。
3、举例说明:
以深圳宝安SEO博客站cs.seohlw.com为例:
(1)、禁止所有搜索引擎访问我的网站的任何部分
User-agent: *
Disallow: /
(2)、禁止百度蜘蛛访问我的网站wp-admin目录下的所有目录
User-agent: baiduspider
Disallow: /wp-admin/
(3)、禁止360蜘蛛访问我的网站所有动态路径
User-agent: 360spider
Disallow: /*?*
(4)、禁止百度蜘蛛访问我的网站wp-admin目录下的所有目录,除了img目录下的以png为后缀的图片。
User-agent: baiduspider
Allow:/ wp-admin/images/*.png$
Disallow: /wp-admin/
4、注意事项:尽管robots.txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots.txt文件,建议您在各大搜索引擎工具中都进行测试,因为各搜索引擎的解析实现确实有细微差别
文章评论