运营 // Articles

sitemap.xml 是什么

整理 sitemap.xml 的作用、类型,以及发布前应检查的 URL、lastmod 和 XML 状态。

sitemap.xml 是用来向搜索引擎和 crawler 提供站点 URL 列表的 XML 文件。它不能保证收录,但可以帮助 crawler 更清楚地发现公开 URL、更新时间和站点结构。

给机器读取的 URL 列表

导航和文章列表是给人看的。sitemap 是给 crawler 读取的列表,适合大型站点、更新频繁的站点,以及仅靠内部链接不容易发现的页面。

urlset 与 sitemapindex

小型站点常用 urlset 直接列出 URL。URL 较多或需要按内容类型拆分时,可以使用 sitemapindex 指向多个 sitemap 文件。

  • sitemap 可从公开 URL 获取
  • XML 可以正常解析
  • loc 与 canonical URL 一致
  • HTTPS 站点没有混入 HTTP URL
  • 没有残留旧 URL 或 404 URL

TOOLPOOL Sitemap Checker 可以从站点 URL 或 sitemap URL 开始,查找 sitemap,统计 URL 数量,并检查 lastmod、sitemapindex 和 robots.txt 引用。