问题
许多因素会增加您网站的负载;这包括网络爬虫。此外,如果允许抓取整个网站,网络爬虫可能会用对被搜索无益的资源污染搜索结果。
解决方案
使用 robots.txt 减轻网站负载并阻止不适宜的内容出现在搜索结果中。使用此文件是可选的,并且只能用于这些目的。它不应被用作阻止泄露私人信息或隐藏网站部分内容的方法。
虽然使用此文件可以阻止页面出现在搜索引擎结果中,但它并不能保护网站免受攻击者的侵害。恰恰相反,它可能会无意中帮助他们:robots.txt 是公开可访问的,通过将您的敏感页面路径添加到其中,您正在向潜在的攻击者展示它们的 [sic] 位置。
同时也要注意,一些机器人,例如恶意软件机器人和电子邮件地址抓取器,会忽略您的 robots.txt 文件。
示例
阻止所有搜索引擎抓取网站
http
User-agent: *
Disallow: /
隐藏特定目录(不推荐)
http
User-agent: *
Disallow: /secret/admin-interface
另见
X-Robots-TagHTTP 标头<meta name="robots">HTML 元素(“robots 标签”)- RFC 9309:Robots 排除协议
robotstxt.org上的关于 /robots.txt