Comprobador de robots.txt
Introduce un dominio y obtenemos su robots.txt, analizamos cada grupo de reglas y te dejamos comprobar si una ruta concreta está permitida para un rastreador elegido. Nuestro evaluador sigue la lógica real de coincidencia más larga de Google, no el comportamiento laxo por defecto de las bibliotecas antiguas.
Cómo funciona el comprobador de robots.txt
robots.txt es un archivo de texto plano ubicado en la raíz de un sitio que indica a los rastreadores qué rutas pueden o no pueden solicitar. Cada grupo comienza con una o varias líneas User-agent seguidas de reglas Allow y Disallow. Esta herramienta descarga el archivo, analiza cada grupo y evalúa tu ruta exactamente como lo haría un rastreador real.
El detalle clave que la mayoría de los comprobadores se equivocan es la precedencia. Google no usa la primera regla que coincide; usa la más específica, lo que significa que gana el patrón de ruta coincidente más largo, y Allow gana cuando un Allow y un Disallow tienen la misma longitud. Nuestro evaluador implementa esto, además del comodín * y el anclaje de fin de URL $, de modo que el veredicto coincide con Googlebot.
Bloquear una URL en robots.txt solo detiene el rastreo, no la indexación. Una página bloqueada aún puede aparecer en los resultados de búsqueda sin fragmento si otras páginas enlazan a ella. Para mantener una página fuera del índice, permite el rastreo y usa en su lugar una metaetiqueta o cabecera noindex.
Errores habituales en robots.txt
- Disallow: / bloquea todo el sitio · un accidente frecuente después de que un despliegue de pruebas pasa a producción.
- Bloquear carpetas de CSS o JS, lo que impide que Google renderice la página correctamente.
- Usar robots.txt para ocultar una página de la búsqueda · usa noindex en su lugar, ya que las páginas bloqueadas aún pueden indexarse.
- Colocar el archivo en cualquier lugar que no sea la raíz del dominio · debe estar en /robots.txt.
Preguntas frecuentes
¿Es gratuito este comprobador de robots.txt?
Sí, completamente gratuito y sin necesidad de cuenta. Introduce un dominio y, de forma opcional, una ruta y un rastreador, y obtienes las reglas analizadas más un veredicto de permitido o bloqueado al instante.
¿Coincide con la forma en que Googlebot lee el robots.txt?
Sí. Implementamos la precedencia de coincidencia más larga de Google, el comodín * y el anclaje $, donde gana la regla más específica y Allow desempata. Muchas bibliotecas usan la primera coincidencia y dan una respuesta incorrecta.
¿Bloquear una URL en robots.txt la elimina de Google?
No. robots.txt solo controla el rastreo. Una URL con Disallow aún puede indexarse sin fragmento si está enlazada desde otro lugar. Usa una etiqueta o cabecera noindex para eliminar una página del índice.
¿Dónde debe estar ubicado el robots.txt?
En la raíz del host, en /robots.txt sobre HTTPS. Un robots.txt en una subcarpeta se ignora. Cada subdominio necesita su propio archivo.
Monitoriza más que solo el robots.txt
El robots.txt es una pieza de un sitio saludable. ePulz.io vigila el tiempo de actividad, el SSL, el DNS y la caducidad del dominio las 24 horas y te avisa en segundos cuando algo falla.
Empieza a monitorizar gratisAcerca de esta herramienta
El comprobador de robots.txt es una de las varias herramientas gratuitas de red y SEO de ePulz.io. Obtiene y analiza el robots.txt de cualquier sitio y evalúa el permiso de rastreo usando las reglas de coincidencia reales de Google.