robots.txt 是放在站点根目录、用于向 crawler 传达抓取提示的文本文件。在其中加入 Sitemap 行,可以同时告诉 crawler sitemap 文件的位置。
Sitemap 行帮助发现
放在 /sitemap.xml 的 sitemap 可能会被自动发现,但 CMS、多语言站点和大型站点常常有多个 sitemap 或非标准路径。在 robots.txt 中列出它们,可以给 crawler 更明确的入口。
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml- robots.txt 可在站点根目录访问
- Sitemap 使用绝对 URL
- 引用的 sitemap 可以获取
- HTTP/HTTPS 和 www 版本没有混用
- 没有残留 staging URL