Guía de Robots.txt: Controla el Rastreo de tu Sitio Web
El archivo robots.txt es uno de los pilares del SEO técnico. Es el primer archivo que los rastreadores buscan para saber qué secciones de tu web están "abiertas" al público.
¿Qué es el archivo Robots.txt?
Es un archivo de texto simple (.txt) que reside en la raíz de tu servidor. Su función es gestionar el presupuesto de rastreo (Crawl Budget), evitando que los bots pierdan tiempo en secciones irrelevantes o pesadas que no deben indexarse.
Directivas Avanzadas
- Crawl-delay: (Obsoleto para Google, pero usado por Bing) Indica cuántos segundos esperar entre peticiones.
- Noindex: Algunas versiones antiguas de bots respetaban `Noindex` en robots.txt, pero hoy en día NO se recomienda para este fin. Usa meta tags en el HTML.
- Wildcards (* y $): Usa el asterisco para patrones y el símbolo de dólar para indicar el final de una URL.
Ejemplo Completo y Seguro
User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Disallow: /*?s= (Bloquea parámetros de búsqueda)
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.tuweb.com/sitemap.xml
Herramientas de Validación Externas
Antes de subir tu archivo, valídalo con estas herramientas profesionales:
Robots.txt Tester (GSC)
La herramienta oficial dentro de Google Search Console para probar si una URL específica está bloqueada.
Probar con GoogleTechnicalSEO Validator
Un validador excelente que permite probar múltiples User-agents (Googlebot, Bingbot, etc) simultáneamente.
Validar syntaxScreaming Frog
Software de escritorio que permite simular el rastreo respetando o ignorando tu archivo robots.txt.
Descargar software¿Temes haber bloqueado toda tu web por error?
Un error en el robots.txt puede desindexar tu sitio en cuestión de horas. Verificamos tu configuración en tiempo real.
Solicitar Auditoría Gratuita