robots.txt 配置

robots.txt 是一个文本文件,它告诉机器人(例如搜索引擎索引程序)如何表现,通过指示它们不要抓取网站上的某些路径。它放置在网站的根目录中。

问题

许多因素都会增加网站的负载;这包括 Web 爬虫。此外,如果允许爬取整个网站,Web 爬虫可能会导致搜索结果中充斥着不适合搜索的资源。

解决方案

使用 robots.txt 减少网站负载并阻止不合适的內容出现在搜索结果中。使用此文件是可选的,并且仅应用于这些目的。它不应被用作防止泄露私人信息或隐藏网站部分内容的方式。

虽然使用此文件可以阻止页面出现在搜索引擎结果中,但它并不能保护网站免受攻击者的攻击。相反,它可能会无意中帮助他们:robots.txt 是公开可访问的,通过向其中添加敏感页面路径,您实际上是在向潜在攻击者展示其位置。

还要注意,某些机器人,例如恶意软件机器人和电子邮件地址收集器,会忽略您的 robots.txt 文件。

示例

阻止所有搜索引擎抓取网站

http
User-agent: *
Disallow: /

隐藏某些目录(不建议这样做)

http
User-agent: *
Disallow: /secret/admin-interface

另请参阅