Testador de robots.txt

Introduza um domínio e obtemos o respetivo robots.txt, analisamos cada grupo de regras e permitimos-lhe testar se um caminho específico é permitido para um rastreador escolhido. O nosso analisador segue a lógica real de correspondência mais longa do Google, e não o comportamento permissivo das bibliotecas mais antigas.

Como funciona o testador de robots.txt

O robots.txt é um ficheiro de texto simples na raiz de um site que indica aos rastreadores quais os caminhos que podem ou não solicitar. Cada grupo começa com uma ou mais linhas User-agent seguidas de regras Allow e Disallow. Esta ferramenta transfere o ficheiro, analisa cada grupo e avalia o seu caminho exatamente como faria um rastreador real.

O pormenor que a maioria dos testadores erra é a precedência. O Google não usa a primeira regra correspondente; usa a mais específica, ou seja, vence o padrão de caminho correspondente mais longo, e a regra Allow vence quando uma Allow e uma Disallow têm o mesmo comprimento. O nosso analisador implementa isto, além do caráter universal * e da âncora de fim de URL $, para que o veredito corresponda ao Googlebot.

Bloquear um URL no robots.txt apenas impede o rastreamento, não a indexação. Uma página bloqueada pode ainda aparecer nos resultados de pesquisa sem fragmento se outras páginas lhe apontarem. Para manter uma página fora do índice, permita o rastreamento e use antes uma meta tag ou cabeçalho noindex.

Erros comuns no robots.txt

Disallow: / bloqueia o site inteiro - um acidente frequente depois de uma implementação de teste entrar em produção.
Bloquear pastas de CSS ou JS, o que impede o Google de renderizar a página corretamente.
Usar o robots.txt para esconder uma página da pesquisa - use antes noindex, já que as páginas bloqueadas podem mesmo assim ser indexadas.
Colocar o ficheiro em qualquer outro local que não a raiz do domínio - tem de estar em /robots.txt.

Perguntas frequentes

Este testador de robots.txt é gratuito?

Sim, totalmente gratuito e sem necessidade de conta. Introduza um domínio e, opcionalmente, um caminho e um rastreador, e obtém de imediato as regras analisadas e um veredito de permitido ou bloqueado.

Corresponde à forma como o Googlebot lê o robots.txt?

Sim. Implementamos a precedência de correspondência mais longa do Google, o caráter universal * e a âncora $, em que a regra mais específica vence e a Allow desempata. Muitas bibliotecas usam a primeira correspondência e dão a resposta errada.

Bloquear um URL no robots.txt remove-o do Google?

Não. O robots.txt apenas controla o rastreamento. Um URL com Disallow pode ainda ser indexado sem fragmento se estiver ligado a partir de outro local. Use uma tag ou cabeçalho noindex para remover uma página do índice.

Onde tem de estar localizado o robots.txt?

Na raiz do anfitrião, em /robots.txt através de HTTPS. Um robots.txt numa subpasta é ignorado. Cada subdomínio precisa do seu próprio ficheiro.

Monitorize muito mais do que apenas o robots.txt

O robots.txt é uma peça de um site saudável. O ePulz.io vigia a disponibilidade, o SSL, o DNS e a expiração do domínio 24 horas por dia e avisa-o em segundos quando algo falha.

Comece a monitorizar gratuitamente

Acerca desta ferramenta

O testador de robots.txt é uma de várias ferramentas gratuitas de rede e SEO do ePulz.io. Obtém e analisa o robots.txt de qualquer site e avalia a permissão de rastreamento usando as regras reais de correspondência do Google.

Ferramentas relacionadas

Teste SEO (completo)Gerador de brand kit Expiração do certificado SSL Consulta DNS Cabeçalhos de segurança HTTP WHOIS / Expiração Ferramentas grátis - SSL, DNS, cabeçalhos de segurança →