相信有许多站长都遇到过这样的问题、那就是建站后搜索引擎不收录你的网站。遇到这样的问题让很多站长无从下手,不知道怎么解决。搜索到的一堆资料都不能解决问题,那么今天就带着小伙伴们一起了解Robots协议,看完了本文、或许你就找出你网站不收录的原因了!

什么是Robots.txt?robots文件生成工具以及Robots.txt的规范写法

什么是Robots协议?

什么是Robots.txt?robots文件生成工具以及Robots.txt的规范写法

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),

Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。网站通过Robots协议告诉搜索引擎哪些网站页面可以抓取,哪些网站页面不能被抓取。所以小伙伴们不要忽视掉这个小细节大作用的东西!

robots.txt文件是一个文本文件,使用任何一个比较常见的文本编辑器都可以创建和编辑它 比如Windows系统自带的Notepad以及Notepad++。robots.txt是一个协议,而不是一个命令。估计很多站长也是存在误解的吧。

有的站长使用的建站系统可能自带的有Robots.txt文件,有的压根就没有Robots.txt文件。这使得爬虫无法对网站进行爬取索引。自然而然的不会收录你得网站(吃了闭门羹还想对你网站友好?)所以站长们在网站建立完善后及时的检查Robots.txt的存在和Robots.txt内容是否规范。

怎么使用Robots协议?

Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过你自己的域名进行访问的。所以小伙伴们不要乱放这个文件!

例如:如果您的网站地址是 https://www.qiebk.com/那么,该文件必须能够通过 https://www.qiebk.com/robots.txt 打开并看到里面的内容。

Robots.txt的规范写法格式是什么?

Robots.txt由User-agent、Disallow、Sitemap注释符组成,每一个注释都有相当重要的地位,是不可忽视的。所以小伙伴不要随意变动或者完全不明白robots.txt是怎么写的时候不要去乱动!

User-agent:

用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

例一:"Disallow:/help"是指/help.HTML 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二:"Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。

例三:Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。

Sitemap:

Sitemap:是方便站长通知搜索引擎他们网站上有哪些可抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

例如:企鹅博客的sitemap地址是https://www.qiebk.com/sitemap.xml

则应该在Robots.txt中写入Sitemap: https://www.qiebk.com/sitemap.xml 搜索引擎爬取到sitemap时就会前往爬取更多的网站页面

Robots.txt综合例子 :

例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,并告诉搜索引擎sitemap地址。设置方法如下:

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

Sitemap: https://www.qiebk.com/sitemap.xml

例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三:禁止任何搜索引擎抓取我的网站,设置方法如下:

User-agent: *

Disallow: /

例四:只禁止某个搜索引擎抓取我的网站如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:

User-agent: slurp

Disallow: /