Testador de robots.txt
Introduza um domínio e obtemos o respetivo robots.txt, analisamos cada grupo de regras e permitimos-lhe testar se um caminho específico é permitido para um rastreador escolhido. O nosso analisador segue a lógica real de correspondência mais longa do Google, e não o comportamento permissivo das bibliotecas mais antigas.
Como funciona o testador de robots.txt
O robots.txt é um ficheiro de texto simples na raiz de um site que indica aos rastreadores quais os caminhos que podem ou não solicitar. Cada grupo começa com uma ou mais linhas User-agent seguidas de regras Allow e Disallow. Esta ferramenta transfere o ficheiro, analisa cada grupo e avalia o seu caminho exatamente como faria um rastreador real.
O pormenor que a maioria dos testadores erra é a precedência. O Google não usa a primeira regra correspondente; usa a mais específica, ou seja, vence o padrão de caminho correspondente mais longo, e a regra Allow vence quando uma Allow e uma Disallow têm o mesmo comprimento. O nosso analisador implementa isto, além do caráter universal * e da âncora de fim de URL $, para que o veredito corresponda ao Googlebot.
Bloquear um URL no robots.txt apenas impede o rastreamento, não a indexação. Uma página bloqueada pode ainda aparecer nos resultados de pesquisa sem fragmento se outras páginas lhe apontarem. Para manter uma página fora do índice, permita o rastreamento e use antes uma meta tag ou cabeçalho noindex.
Erros comuns no robots.txt
- Disallow: / bloqueia o site inteiro - um acidente frequente depois de uma implementação de teste entrar em produção.
- Bloquear pastas de CSS ou JS, o que impede o Google de renderizar a página corretamente.
- Usar o robots.txt para esconder uma página da pesquisa - use antes noindex, já que as páginas bloqueadas podem mesmo assim ser indexadas.
- Colocar o ficheiro em qualquer outro local que não a raiz do domínio - tem de estar em /robots.txt.
Perguntas frequentes
Este testador de robots.txt é gratuito?
Sim, totalmente gratuito e sem necessidade de conta. Introduza um domínio e, opcionalmente, um caminho e um rastreador, e obtém de imediato as regras analisadas e um veredito de permitido ou bloqueado.
Corresponde à forma como o Googlebot lê o robots.txt?
Sim. Implementamos a precedência de correspondência mais longa do Google, o caráter universal * e a âncora $, em que a regra mais específica vence e a Allow desempata. Muitas bibliotecas usam a primeira correspondência e dão a resposta errada.
Bloquear um URL no robots.txt remove-o do Google?
Não. O robots.txt apenas controla o rastreamento. Um URL com Disallow pode ainda ser indexado sem fragmento se estiver ligado a partir de outro local. Use uma tag ou cabeçalho noindex para remover uma página do índice.
Onde tem de estar localizado o robots.txt?
Na raiz do anfitrião, em /robots.txt através de HTTPS. Um robots.txt numa subpasta é ignorado. Cada subdomínio precisa do seu próprio ficheiro.
Monitorize muito mais do que apenas o robots.txt
O robots.txt é uma peça de um site saudável. O ePulz.io vigia a disponibilidade, o SSL, o DNS e a expiração do domínio 24 horas por dia e avisa-o em segundos quando algo falha.
Comece a monitorizar gratuitamenteAcerca desta ferramenta
O testador de robots.txt é uma de várias ferramentas gratuitas de rede e SEO do ePulz.io. Obtém e analisa o robots.txt de qualquer site e avalia a permissão de rastreamento usando as regras reais de correspondência do Google.