初识robots.txt

robots协议并非是规范，只是行业内一个约定俗成的协议,一个网站和搜索引擎双方的规则协议。每个搜索引擎的蜘蛛访问一个站点时，它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在，蜘蛛就会按照该协议上的规则来确定自己的访问范围；如果没有robots.txt，那么蜘蛛就会沿着链接抓取。

robots.txt必须放置在站点的根目录下，而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

robots.txt的关键词:User-agent、Disallow、Allow

User-agent：该项用于描述搜索引擎蜘蛛的名字。①规定所有蜘蛛：User-agent:*；②规定某一个蜘蛛(如百度蜘蛛)：User-agent:BaiduSpider。

Disallow：该项用于描述不希望被抓取和索引的一个URL，这个URL可以是一条完整的路径。这有几种不同定义和写法：①Disallow:/suvan，任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问，即网站根目录下的suvan目录内的文件均不会被蜘蛛访问；②Disallow：/suvan/则允许robots抓取和索引/suvan/index.html，而不能抓取和索引/suvan目录下其他非index.html文件；③如果Disallow记录为空，说明该网站的所有内容都允许被访问。一个robots.txt文件，至少应有Disallow记录，如果robots.txt为空文件或者不存在，则该网站对所有的搜索引擎都是开放的。

1. 国内建站需要用到的常见搜索引擎robot的名称。

有时候我们觉得网站访问量（IP）不多，但是网站流量为什么耗的快？大部分原因是蜘蛛爬行和抓取消耗的。网站要屏蔽哪个搜索引擎或只让哪个搜索引擎收录的话，首先要知道每个搜索引擎robot的名称。

百度蜘蛛:			Baiduspider
谷歌蜘蛛:			Googlebot
360蜘蛛:			360Spider
SOSO蜘蛛:			Sosospider
雅虎蜘蛛:			“Yahoo! Slurp China” 或 Yahoo! 
有道蜘蛛:			YoudaoBot 或 YodaoBot
搜狗蜘蛛:			Sogou News Spider
MSN蜘蛛:			msnbot 或 msnbot-media
必应蜘蛛:			bingbot
一搜蜘蛛:			YisouSpider
Alexa蜘蛛:			ia_archiver
宜sou蜘蛛:			EasouSpider
即刻蜘蛛:			JikeSpider
一淘网蜘蛛:		EtaoSpider

2. robots.txt文件基本写法：

首先，创建一个名为robots.txt空白文件

①禁止所有搜索引擎访问网站的任何部分。

User-agent: *
Disallow: /

②允许所有的robots访问，无任何限制。

User-agent: *
Disallow:
或
User-agent: *
Allow: /

也可以不创建robots.txt文件或者创建空白robots.txt。

③仅禁止某个搜索引擎的访问（例如：Baiduspider）

User-agent: Baiduspider
Disallow:/

④允许某个搜索引擎的访问

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /
#允许多个蜘蛛
User-agent: BaiduSpider
Disallow:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

⑤禁止Spider访问特定目录和特定文件。

User-agent: *
Disallow: /suvan/
Disallow: /*.css$
Disallow: /*.js$
Disallow: .jpg$
Disallow: .rar$

1. 国内建站需要用到的常见搜索引擎robot的名称。

2. robots.txt文件基本写法：

相关推荐

评论

1. 国内建站需要用到的常见搜索引擎robot的名称。

2. robots.txt文件基本写法：

您可以选择一种方式赞助本站

支付宝扫一扫

微信扫一扫

相关推荐

评论