Volver a Guías

Guía de Robots.txt: Controla el Rastreo de tu Sitio Web

El archivo robots.txt es uno de los pilares del SEO técnico. Es el primer archivo que los rastreadores buscan para saber qué secciones de tu web están "abiertas" al público.

¿Qué es el archivo Robots.txt?

Es un archivo de texto simple (.txt) que reside en la raíz de tu servidor. Su función es gestionar el presupuesto de rastreo (Crawl Budget), evitando que los bots pierdan tiempo en secciones irrelevantes o pesadas que no deben indexarse.

Directivas Avanzadas

Crawl-delay: (Obsoleto para Google, pero usado por Bing) Indica cuántos segundos esperar entre peticiones.
Noindex: Algunas versiones antiguas de bots respetaban `Noindex` en robots.txt, pero hoy en día NO se recomienda para este fin. Usa meta tags en el HTML.
Wildcards (* y $): Usa el asterisco para patrones y el símbolo de dólar para indicar el final de una URL.

Ejemplo Completo y Seguro

User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Disallow: /*?s= (Bloquea parámetros de búsqueda)
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.tuweb.com/sitemap.xml

Herramientas de Validación Externas

Antes de subir tu archivo, valídalo con estas herramientas profesionales:

Robots.txt Tester (GSC)

La herramienta oficial dentro de Google Search Console para probar si una URL específica está bloqueada.

Probar con Google

TechnicalSEO Validator

Un validador excelente que permite probar múltiples User-agents (Googlebot, Bingbot, etc) simultáneamente.

Validar syntax

Screaming Frog

Software de escritorio que permite simular el rastreo respetando o ignorando tu archivo robots.txt.

Descargar software

¿Temes haber bloqueado toda tu web por error?

Un error en el robots.txt puede desindexar tu sitio en cuestión de horas. Verificamos tu configuración en tiempo real.

Solicitar Auditoría Gratuita