|
一、Robots是什么意思?
Robots是一个英文单词,对英语比较懂的朋友相信都知道,Robots的中文意思是机器人。而我们通常提到的主要是Robots协议,这也是搜索引擎的国际默认公约。
二、Robots协议是什么?
Robots协议通常被称为是爬虫协议、机器人协议,主要是在搜素引擎中会见到,其本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
百度为什么称360违反Robots协议呢?主要是因为百度认为360搜素对自身产生了竞争,百度不希望自己旗下的贴吧,文库,知道,百科等网站产品,被360搜素收录,并且在Robots协议中标注屏蔽360搜素,而360直接绕过了robots协议继续采集百度旗下产品网站的信息,因此被百度起诉。
简单的说,任何网站只要在其robots协议中加入禁止某搜索引擎访问,那么该搜索引擎就无权收录该网站的内容。而robots的重要性在于,一个网站有权利可以存在于互联网中,但又不被指定的搜索引擎索引放到搜索结果中,因为搜索引擎在互联网上就像国王,网站就是每个人的小家,而robots协议则是对抗国王的最后利器,正所谓“风能进雨能进国王不能进”。
在网站中,Robots协议是一个记事本文件,我们只要将Robots.txt文件放置在网站跟目录,里边可以标注,哪些网站目录不希望被搜索引擎抓取即可,其格式如下图所示:
Robots.txt协议文件示例
|
|
|
|
|
|
|