初识robots.txt

robots协议并非是规范,只是行业内一个约定俗成的协议,一个网站和搜索引擎双方的规则协议。每个搜索引擎的蜘蛛访问一个站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,蜘蛛就会按照该协议上的规则来确定自己的访问范围;如果没有robots.txt,那么蜘蛛就会沿着链接抓取。

robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

robots.txt的关键词:User-agent、Disallow、Allow

User-agent:该项用于描述搜索引擎蜘蛛的名字。(1)规定所有蜘蛛:User-agent:*;(2)规定某一个蜘蛛(如百度蜘蛛):User-agent:BaiduSpider。

Disallow:该项用于描述不希望被抓取和索引的一个URL,这个URL可以是一条完整的路径。这有几种不同定义和写法:(1)Disallow:/suvan,任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问,即网站根目录下的suvan目录内的文件均不会被蜘蛛访问;(2)Disallow:/suvan/则允许robots抓取和索引/suvan/index.html,而不能抓取和索引/suvan目录下其他非index.html文件;(3)如果Disallow记录为空,说明该网站的所有内容都允许被访问。一个robots.txt文件,至少应有Disallow记录,如果robots.txt为空文件或者不存在,则该网站对所有的搜索引擎都是开放的。

1、国内建站需要用到的常见搜索引擎robot的名称。

有时候我们觉得网站访问量(IP)不多,但是网站流量为什么耗的快?大部分原因是蜘蛛爬行和抓取消耗的。网站要屏蔽哪个搜索引擎或只让哪个搜索引擎收录的话,首先要知道每个搜索引擎robot的名称。

2、robots.txt文件基本写法:

首先,创建一个名为robots.txt空白文件

(1)禁止所有搜索引擎访问网站的任何部分。

(2)允许所有的robots访问,无任何限制。

也可以不创建robots.txt文件或者创建空白robots.txt。

(3)仅禁止某个搜索引擎的访问(例如:Baiduspider)

(4)允许某个搜索引擎的访问

(5)禁止Spider访问特定目录和特定文件。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: