robots.txt é um arquivo de texto na raiz do site para comunicar preferências de crawl. Uma linha Sitemap também pode informar onde estão os arquivos sitemap.
Sitemap ajuda na descoberta
Um sitemap em /sitemap.xml pode ser encontrado sem ajuda extra, mas muitos CMSs, sites multilíngues e sites grandes usam várias URLs ou caminhos diferentes. Listar isso no robots.txt dá um ponto de partida claro.
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml- robots.txt está disponível na raiz
- Sitemap usa URLs absolutas
- Os sitemaps referenciados podem ser obtidos
- HTTP/HTTPS e variantes www não estão misturadas por engano
- Não restam URLs de staging