robots文件是指定给搜索引擎派出的蜘蛛收录的规则限制,一般情况下,搜索引擎会派出蜘蛛自动访问互联网的所有网站,它们做的第一件事就是检查网站根目录是否有robots文件,这个文件用于指定蜘蛛对网站的抓取范围,没有robots文件蜘蛛则视为没有规则限制随意收录。
robots文件,其实就是放置在网站根目录的robtos.txt文件,这是一个说重要不是很重要,但有时候却又是致命的文件,他有可能是导致整个网站不收录或者某一个某块目录下的所有页面都不收录的主要原因,小编也发现很多新手在做seo优化的时候,经常因robots文件引起差错。
值得注意的是,robots文件中的任何(注意是任何)一个字母的小差错,都是致命伤害!
身为站长或者相关的seo工作人员一定要注意每行代码是否填写正确,希望开放的目录是否能被收录。
举个例子:比如梁俊威个人博客的网站是:https://www.codelearn.cn;那么robots.txt文件的位置应该是:https://www.codelearn.cn/robots.txt。
好了,废话不多说,直接上robots.txt的文件编辑规则
User-agent:相关搜索引擎蜘蛛的名称 User-agent: * 指的是所有搜索引擎 Disallow: 禁止搜索引擎抓取的目录 Allow: 允许搜索引擎抓取的目录 Sitemap: 网站地图的链接
下面举例几个常见的robots.txt文件编写方法
1、禁止所有搜索引擎抓取网站的任何部分
User-agent: * Disallow: /
指的注意的是,这是“禁止抓取”,新手小伙伴千万别误把这个robots规则理解为允许搜索引擎抓取网站的所有部分。
2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)
User-agent: * Allow: /
以上robots规则是允许所有搜索引擎抓取网站的任何部分,但为避免错误,建议建一个空的robots.txt文件即可。
3、禁止spider抓取特定目录
User-agent: * Disallow: /a/ Disallow: /b/ Disallow: /c/
以上例子,禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。