当前位置:沐岚SEO学习笔记 > SEO基础 >

Robots文件是什么?怎么写?

简介 在建站初期,会遇到一些垃圾页面或者重复的页面,后台登录账户等隐私信息不想被搜索引擎获取,这时候该怎么处理呢?robots.txt 文件就是问题的答案,下面就来告诉你robot.txt 文件是什么及如何书写?

目录

robots.txt 是什么
robots.txt写法
关于robots的注意事项
误区

 

01
Robots.txt 是什么?

Robots.txt 它是搜索引擎的机器协议。全称是“网络爬虫排除协议”。网站通过Robots协议来告诉搜索引擎,哪些页面可以抓取,哪些页面不能够抓取。

因为网站的很多目录如果被抓取是有风险的,或者是因为利益原因不能被抓取,所以需要告诉蜘蛛人你网站允许与不允许的情况。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后,会读取上面的协议,并准守协议爬取网站,收录网站。

robots文件是一个纯文本文件,也就是常见的.txt文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。因此,robots的优化会直接影响到搜索引擎对网站的收录情况。

robots文件必须要存放在网站的根目录下。也就是 域名/robots.txt 是可以访问文件的

02
Robots.txt写法

robots.txt写法 
首先我们来看一个范例(下图)

1、禁止所有搜索引擎抓取网站的任何部分
robots.txt范例01请注意!有一些新手朋友正是误把以上robots规则理解为允许所有搜索引擎抓取网站的任何部分,导致搜索引擎不收录网站。

2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)
robots.txt范例02以上robots规则是允许所有搜索引擎抓取网站的任何部分,但为避免错误,建议建一个空的robots.txt文件即可。

3、禁止spider抓取特定目录
robots.txt范例03 

robots在禁止抓取特定目录、特定页面时经常会被用到,它可以在URL优化中规范URL,集中URL权重

03
关于robots的注意事项

1. user-agent这句代码表示那个搜索引擎准守协议。user-agent后面为搜索机器人名称,如果是“*”号,则泛指所有的搜索引擎机器人;案例中显示“User-agent: *” 表示所有搜索引擎准守,*号表示所有。

2. 代码后需要【冒号+空格+斜杆】 ,比如“Disallow: /*?* ”

3. 当网站为静态路径时,需要屏蔽掉所有动态链接。网站中存在一种链接被收录即可,避免一个页面2个链接。代码如下“Disallow: /*?* ”表示禁止所有带 ?号的网址被爬取。通常动态网址带有“?”“=”等。

04
误区

【误区一】:网站上的所有文件都需要蜘蛛抓取,那就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面

每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以应该在网站中添加一个robots.txt

【误区二】:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件
 
小结
Robots.txt 就是帮助搜索引擎蜘蛛来确认爬去网站的范围的,如果没有就毫无限制的爬取了,这样的降低了spider 爬去的效率,浪费了带宽,况且也不利网站收录, 像网站的程序后台、程序目录等都可以禁止spider抓取。


每天进步一点点!
 

作者:沐岚
公众号:Mulan SEO学习笔记

 

  • 关注微信

猜你喜欢

微信公众号