robots.txt es un archivo de texto ubicado en la raíz del sitio para comunicar preferencias de rastreo. Una línea Sitemap también puede indicar dónde están los archivos sitemap.
Sitemap ayuda al descubrimiento
Un sitemap en /sitemap.xml puede descubrirse sin más ayuda, pero muchos CMS, sitios multilingües y sitios grandes usan varias URLs o rutas distintas. Listarlas en robots.txt ofrece un punto de partida claro.
User-agent: *
Allow: /
Sitemap: https://example.com/sitemap.xml- robots.txt está disponible en la raíz
- Sitemap usa URLs absolutas
- Los sitemap referenciados se pueden obtener
- HTTP/HTTPS y variantes www no se mezclan por error
- No quedan URLs de staging