运营 // Articles

为什么在 robots.txt 中写 Sitemap

说明 robots.txt 中 Sitemap 指令如何帮助 crawler 发现 sitemap,以及发布前需要检查什么。

robots.txt 是放在站点根目录、用于向 crawler 传达抓取提示的文本文件。在其中加入 Sitemap 行,可以同时告诉 crawler sitemap 文件的位置。

Sitemap 行帮助发现

放在 /sitemap.xml 的 sitemap 可能会被自动发现,但 CMS、多语言站点和大型站点常常有多个 sitemap 或非标准路径。在 robots.txt 中列出它们,可以给 crawler 更明确的入口。

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml
  • robots.txt 可在站点根目录访问
  • Sitemap 使用绝对 URL
  • 引用的 sitemap 可以获取
  • HTTP/HTTPS 和 www 版本没有混用
  • 没有残留 staging URL