robots.txt 配置

robots.txt 是一个文本文件,它通过指示机器人(例如搜索引擎爬虫)不要抓取网站上的某些路径来告诉它们如何行为。它放置在网站的根目录下。

问题

许多因素会增加您网站的负载;这包括网络爬虫。此外,如果允许抓取整个网站,网络爬虫可能会用对被搜索无益的资源污染搜索结果。

解决方案

使用 robots.txt 减轻网站负载并阻止不适宜的内容出现在搜索结果中。使用此文件是可选的,并且只能用于这些目的。它不应被用作阻止泄露私人信息或隐藏网站部分内容的方法。

虽然使用此文件可以阻止页面出现在搜索引擎结果中,但它并不能保护网站免受攻击者的侵害。恰恰相反,它可能会无意中帮助他们:robots.txt 是公开可访问的,通过将您的敏感页面路径添加到其中,您正在向潜在的攻击者展示它们的 [sic] 位置。

同时也要注意,一些机器人,例如恶意软件机器人和电子邮件地址抓取器,会忽略您的 robots.txt 文件。

示例

阻止所有搜索引擎抓取网站

http
User-agent: *
Disallow: /

隐藏特定目录(不推荐)

http
User-agent: *
Disallow: /secret/admin-interface

另见