加入收藏 | 设为首页 | 会员中心 | 我要投稿 汉中站长网 (https://www.0916zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 搜索优化 > 正文

robots协议是什么意思?robots.txt文件的用途是什么?

发布时间:2022-01-14 12:45:15 所属栏目:搜索优化 来源:互联网
导读:robots实际上指的是robots协议(也称为爬虫协议、机器人协议),它的全称是爬虫排除标准,网站通过robots协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓
       robots实际上指的是robots协议(也称为爬虫协议、机器人协议),它的全称是“爬虫排除标准”,网站通过robots协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。
  
       而承载这些协议的文件是robots.txt文件,那么robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项,今天将在本文中向大家详细介绍。
 
一、robots.txt文件的含义,robots.txt的作用是什么
 
      如前所述,该文本文件带有robots协议,该协议告诉所有搜索引擎该网站的哪些页面可以被抓取,哪些页面禁止被抓取。这有两个意思:
 
1、保护隐私。有些目录或页面不希望或不能被外界看到。有些搜索引擎可能不知道这些情况,它仍会像往常一样抓取并显示这些页面。如果我们通过robots来设置限制,搜索引擎蜘蛛将会放弃爬行,外界将无法通过搜索引擎知道这些保密信息。
 
2、调整抓取页面的数量。众所周知,每个网站上蜘蛛爬行的配额是有限的,如果我们禁止一些不重要的页面不被抓取,那么将配额留给那些重要的页面,会有更多的机会被抓取。
 
二、robots.txt文件的写法
 
robots协议针对允许或禁止,也可以设置特定的搜索引擎,其实在正常情况下,没有必要区分搜索引擎,而是统一设置允许抓取。
 
1、所有搜索引擎都被禁止访问网站
 
User-agent: *
Disallow: /
 
2、允许所有搜索引擎访问网站
 
User-agent: *
Allow: /
 
3、禁止所有蜘蛛访问网站的某个目录
 
User-agent:*
Disallow: /test/
 
这是最基本的用法,robots协议的使用有很多技巧,我建议大家仔细阅读其协议。
 
三、robots.txt文件相关注意事项
 
有些站长说我的网站上没有任何禁止爬行的页面,所以不用设置robots文件,这在理论上行得通。

(编辑:汉中站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!