robots.txt 配置
robots.txt
是一个文本文件,它告诉机器人(例如搜索引擎索引程序)如何表现,通过指示它们不要抓取网站上的某些路径。它放置在网站的根目录中。
问题
许多因素都会增加网站的负载;这包括 Web 爬虫。此外,如果允许爬取整个网站,Web 爬虫可能会导致搜索结果中充斥着不适合搜索的资源。
解决方案
使用 robots.txt
减少网站负载并阻止不合适的內容出现在搜索结果中。使用此文件是可选的,并且仅应用于这些目的。它不应被用作防止泄露私人信息或隐藏网站部分内容的方式。
虽然使用此文件可以阻止页面出现在搜索引擎结果中,但它并不能保护网站免受攻击者的攻击。相反,它可能会无意中帮助他们:robots.txt
是公开可访问的,通过向其中添加敏感页面路径,您实际上是在向潜在攻击者展示其位置。
还要注意,某些机器人,例如恶意软件机器人和电子邮件地址收集器,会忽略您的 robots.txt
文件。
示例
阻止所有搜索引擎抓取网站
http
User-agent: *
Disallow: /
隐藏某些目录(不建议这样做)
http
User-agent: *
Disallow: /secret/admin-interface
另请参阅
- 关于 /robots.txt 在
robotstxt.org
上