首先解释一下,网站根目录下的robot.txt,顾名思义,就是机器人文件,其作用是告诉搜索引擎哪些页面可以抓取。对于网站的日常运营来说,相当重要,尤其在SEO方面,作用更为明显。
robot.txt的作用其实只是机器人抓取控制,并不是所有搜索引擎都会遵守,但是大部分搜索引擎,例如Google、Baidu、Bing等都支持这个协议。例如有些页面不希望被搜索引擎收录,可以在robot.txt中加上限制;或者针对不同的搜索引擎,设置不同的限制,让各个机器人工作更加合理。
示例:具体的robot.txt怎么编写呢?下面是一个简单的例子。
User-agent: googlebot
Disallow: /nosearch
User-agent: baiduspider
Disallow: /nofind
User-agent: MSNBot
Crawl-delay: 5
以上代码中,“User-agent”指搜索引擎的名字,“Disallow”表示不允许被抓取的目录或文件,如果要允许某个目录或文件被抓取,则将Disallow改为“Allow”。
总之,robot.txt这个小文件对于网站的运营和SEO优化有很大的帮助,网站管理员在日常运营中一定要认真对待。