sitemap.xml 是用来向搜索引擎和 crawler 提供站点 URL 列表的 XML 文件。它不能保证收录,但可以帮助 crawler 更清楚地发现公开 URL、更新时间和站点结构。
给机器读取的 URL 列表
导航和文章列表是给人看的。sitemap 是给 crawler 读取的列表,适合大型站点、更新频繁的站点,以及仅靠内部链接不容易发现的页面。
urlset 与 sitemapindex
小型站点常用 urlset 直接列出 URL。URL 较多或需要按内容类型拆分时,可以使用 sitemapindex 指向多个 sitemap 文件。
- sitemap 可从公开 URL 获取
- XML 可以正常解析
- loc 与 canonical URL 一致
- HTTPS 站点没有混入 HTTP URL
- 没有残留旧 URL 或 404 URL
TOOLPOOL Sitemap Checker 可以从站点 URL 或 sitemap URL 开始,查找 sitemap,统计 URL 数量,并检查 lastmod、sitemapindex 和 robots.txt 引用。