Tester robots.txt
Inserisci un dominio e recuperiamo il suo robots.txt, analizziamo ogni gruppo di regole e ti permettiamo di verificare se un percorso specifico è consentito per un crawler scelto. Il nostro motore segue la reale logica di corrispondenza più lunga di Google, non l'impostazione predefinita meno precisa delle librerie più vecchie.
Come funziona il tester robots.txt
robots.txt è un file di testo semplice nella radice di un sito che indica ai crawler quali percorsi possono o non possono richiedere. Ogni gruppo inizia con una o più righe User-agent seguite da regole Allow e Disallow. Questo strumento scarica il file, analizza ogni gruppo e valuta il tuo percorso esattamente come farebbe un vero crawler.
Il dettaglio chiave che la maggior parte dei tester sbaglia è la precedenza. Google non usa la prima regola corrispondente; usa quella più specifica, cioè vince il pattern di percorso corrispondente più lungo, e Allow vince quando una regola Allow e una Disallow hanno la stessa lunghezza. Il nostro motore implementa questo, oltre al carattere jolly * e all'ancora di fine URL $, così il verdetto corrisponde a quello di Googlebot.
Bloccare un URL in robots.txt ferma solo la scansione, non l'indicizzazione. Una pagina bloccata può comunque comparire nei risultati di ricerca senza snippet se altre pagine la collegano. Per tenere una pagina fuori dall'indice, consenti la scansione e usa invece un meta tag noindex o un header.
Errori comuni nel robots.txt
- Disallow: / blocca l'intero sito · un incidente frequente dopo che un deploy di staging va in produzione.
- Bloccare le cartelle CSS o JS, impedendo a Google di renderizzare correttamente la pagina.
- Usare robots.txt per nascondere una pagina dalla ricerca · usa invece noindex, poiché le pagine bloccate possono comunque essere indicizzate.
- Mettere il file in un punto diverso dalla radice del dominio · deve trovarsi su /robots.txt.
Domande frequenti
Questo tester robots.txt è gratuito?
Sì, completamente gratuito e senza bisogno di account. Inserisci un dominio e, facoltativamente, un percorso e un crawler, e ottieni subito le regole analizzate più un verdetto consentito o bloccato.
Corrisponde al modo in cui Googlebot legge robots.txt?
Sì. Implementiamo la precedenza per corrispondenza più lunga di Google, il carattere jolly * e l'ancora $, dove vince la regola più specifica e Allow risolve i pareggi. Molte librerie usano la prima corrispondenza e danno la risposta sbagliata.
Bloccare un URL in robots.txt lo rimuove da Google?
No. robots.txt controlla solo la scansione. Un URL non consentito può comunque essere indicizzato senza snippet se è collegato da altrove. Usa un tag o un header noindex per rimuovere una pagina dall'indice.
Dove deve trovarsi robots.txt?
Nella radice dell'host, su /robots.txt tramite HTTPS. Un robots.txt in una sottocartella viene ignorato. Ogni sottodominio ha bisogno del proprio file.
Monitora molto più del solo robots.txt
robots.txt è solo un tassello di un sito sano. ePulz.io controlla uptime, SSL, DNS e scadenza del dominio 24 ore su 24 e ti avvisa entro pochi secondi quando qualcosa si rompe.
Inizia a monitorare gratisInformazioni su questo strumento
Il tester robots.txt è uno dei diversi strumenti gratuiti di rete e SEO di ePulz.io. Recupera e analizza il robots.txt di qualsiasi sito e valuta il permesso di scansione usando le reali regole di corrispondenza di Google.