当前位置:主页 > seo经验篇 >

Robots协义详解

2018-07-24 00:03  来源:老狼seo

  已经夜深人静了,老狼seo小编还是决定把这篇关于robots协义详解的文章写完,相信对于每一个seo人员来说,robots协义并不陌生,多多少少都会接触到,那么说到这里了,那什么是robots协义呢,robots协义是每个搜索引擎蛛蛛访问网站的第一个文件,在这个robots协议文件里面说明了什么目录文件是允许蛛蛛抓取,什么目录文章是不允许蛛蛛抓取的.接下来老狼seo小编和大家对robots协义文件进行详细的讲解。

老狼seo

  首先robots文件是放在网站的根目录,其次是它的格式:":"

  Robots文件一般是以:user-agent开头,后跟搜索引擎蛛蛛的名称或者“*”,中间用冒号隔开,如:user-agent:baiduspider,user-agent:*,分别代表百度蛛蛛和所有搜索引擎蛛蛛。

  Disallow:代表不允许抓取某个目录或者文件和图片,比如:不允许对整个网站进行抓取,那么它的写法如下:Disallow:/ ,亦或者不允许抓取根目录下的a目录,写法如下:Disallow:/a/等等。。。

  Allow:代表允许抓取某个目录或者文件和图片,比方说允许抓取整个网站,写法如下:Allow:/,或者只允许抓取a目录的html文件,写法如下:Allow:/a/*.html。

  Robots文件的注释,以#开头进行注释,和linux下的注释用法一样的,比如#Allow:/

  通配符:robots文件有两个常用的通配符”*”和”$”,*代表匹配任意一个字符,$代表匹配行线束符,这里就不举例了。

  Robots协义的用法:

  1:禁止所有蛛蛛抓取网站

  User-agent:*

  Disallow:/

  2:允许所有蛛蛛抓取网站

  User-agent:*

  Allow:/

  3:只允许某个蛛蛛抓取网站如只允许百度蛛蛛抓取网站

  User-agent:baiduspider

  Allow:/

  4:禁止百度蛛蛛抓取网站

  User-agent:baiduspider

  Disallow:/

  5:禁止蛛蛛抓取某个特定的目录

  User-agent:*

  Disallow:/a/

  6:允许蛛蛛抓取特定的某个目录

  User-agent:*

  Allow:/a/

  7:禁止蛛蛛抓取网站某一类后缀的文件如.html

  User-agent:*

  Disallow:/*.html$

  一般情况不写robots协义代表允许所有搜索引擎蛛蛛抓取网站所有东西,只有在一种情况才会写这个robots协义文件就是网站有一些东西不希望蛛蛛抓取,才会设置这个robots文件,如果设置错误,导致蛛蛛不来抓取网站,或者误封禁了蛛蛛,该怎么办呢,只有从新设置一下robots协义文件,然后搜索资源平台从新在线更新一下robots文件,再反馈一下,过一段时间就会恢复正常。

  关于robots协义文件,老狼seo小编今天就写到这里了,虽然写的不是很详细,但能满足基本的日常工作需要了。


责任编辑:老狼seo
声明:本文仅代表编辑个人观点,如需转载,请注明出处.

首页 | seo优化 | seo算法 | seo工具 | seo动态| seo经验篇| 建站教程| 熊掌号| 网站地图

老狼SEO博客保留所有权利 粤ICP备18012509号-1

老狼seo博客部分信息来自互联网,且标注来源处,如有侵权,请及时联系站长(qq:754389210)进行删除,如有不便之处,敬请谅解