让robots成为你网站的守护神

一、Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。txt是一个协议,而不是一个命令。但是,Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的。如果搜索引擎都不遵守这个协议,那么互联网将受到不可估量的灾难,所谓无规矩不成方圆。

二、在搜索引擎都遵守游戏规则的前提下,robots协议将为我们的网站保驾护航。下面了解robots协议文件的写法。

1、Robots有三个命令,两个通配符。三个命令分别为User-agent、Disallow、Allow;两个通配符分别为*、$。

2、下面分别阐释:

(1)、User-agent,直接翻译成中文就是用户代理,在这里的作用是指定搜索引擎的种类。例如:User-agent: * 这里的指定所有的搜索引擎种类。

(2)、Disallow,不允许,在这里的作用就是指定搜索引擎不允许访问的文件、目录或路径。例如:Disallow: /admin/ 这里定义是禁止爬取admin目录下面的目录

(3)、Allow,允许,在这里的作用就是告知搜索引擎可以访问的文件、目录或路径。例如:Allow: /admin/ 这里定义是允许爬寻admin目录下面的目录

(4)、*,通配符,代替代替一个或多个字符。例如:Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址。

(5)、$,通配符,定义文件的后缀。例如:Disallow: /admin/.jpg$ 禁止抓取admin目录下面的所有的.jpg格式的图片。

通过这三个指令和两个通配符的组合,可以写出任何规定的协议。

3、举例说明

以深圳宝安SEO博客站cs.seohlw.com为例:

(1)、禁止所有搜索引擎访问我的网站的任何部分

User-agent: *

Disallow: /

(2)、禁止百度蜘蛛访问我的网站wp-admin目录下的所有目录

User-agent: baiduspider

Disallow: /wp-admin/

(3)、禁止360蜘蛛访问我的网站所有动态路径

User-agent: 360spider

Disallow: /*?*

(4)、禁止百度蜘蛛访问我的网站wp-admin目录下的所有目录,除了img目录下的以png为后缀的图片。

User-agent: baiduspider

Allow:/ wp-admin/images/*.png$

Disallow: /wp-admin/

4、注意事项:尽管robots.txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots.txt文件,建议您在各大搜索引擎工具中都进行测试,因为各搜索引擎的解析实现确实有细微差别

正文完
 0
评论(没有评论)