Robots.txt-tester

Voer een domein in en wij halen de robots.txt op, parseren elke regelgroep en laten je testen of een specifiek pad is toegestaan voor een gekozen crawler. Onze matcher volgt de echte logica van de langste overeenkomst van Google, niet de losse standaard van oudere bibliotheken.

Voer een domein in zoals example.com. Wij halen altijd https://example.com/robots.txt op.

Hoe de robots.txt-tester werkt

robots.txt is een platte tekstbestand in de root van een site dat crawlers vertelt welke paden ze wel of niet mogen opvragen. Elke groep begint met een of meer User-agent-regels gevolgd door Allow- en Disallow-regels. Deze tool downloadt het bestand, parseert elke groep en beoordeelt jouw pad precies zoals een echte crawler dat zou doen.

Het belangrijkste detail dat de meeste testers verkeerd doen is de prioriteit. Google gebruikt niet de eerste overeenkomende regel; het gebruikt de meest specifieke, wat betekent dat het langste overeenkomende padpatroon wint, en Allow wint wanneer een Allow en een Disallow even lang zijn. Onze matcher implementeert dit, plus het *-jokerteken en het $-anker voor het einde van de URL, zodat het oordeel overeenkomt met Googlebot.

Een URL blokkeren in robots.txt stopt alleen het crawlen, niet het indexeren. Een geblokkeerde pagina kan nog steeds in de zoekresultaten verschijnen zonder fragment als andere pagina's ernaar linken. Om een pagina uit de index te houden, sta het crawlen toe en gebruik in plaats daarvan een noindex meta-tag of header.

Veelvoorkomende robots.txt-fouten

Veelgestelde vragen

Is deze robots.txt-tester gratis?

Ja, volledig gratis en geen account nodig. Voer een domein en een optioneel pad en crawler in, en je krijgt direct de geparseerde regels plus een oordeel toegestaan of geblokkeerd.

Komt het overeen met hoe Googlebot robots.txt leest?

Ja. We implementeren de prioriteit van de langste overeenkomst van Google, het *-jokerteken en het $-anker, waarbij de meest specifieke regel wint en Allow de doorslag geeft. Veel bibliotheken gebruiken de eerste overeenkomst en geven het verkeerde antwoord.

Verwijdert het blokkeren van een URL in robots.txt die uit Google?

Nee. robots.txt regelt alleen het crawlen. Een geblokkeerde URL kan nog steeds zonder fragment geindexeerd worden als ernaar wordt gelinkt vanaf elders. Gebruik een noindex-tag of header om een pagina uit de index te verwijderen.

Waar moet robots.txt zich bevinden?

In de root van de host, op /robots.txt via HTTPS. Een robots.txt in een submap wordt genegeerd. Elk subdomein heeft zijn eigen bestand nodig.

Bewaak meer dan alleen robots.txt

robots.txt is een onderdeel van een gezonde site. ePulz.io bewaakt uptime, SSL, DNS en het verlopen van domeinen rond de klok en waarschuwt je binnen seconden wanneer er iets stukgaat.

Begin gratis met monitoren

Over deze tool

De robots.txt-tester is een van de vele gratis netwerk- en SEO-tools van ePulz.io. Het haalt de robots.txt van een willekeurige site op, parseert die en beoordeelt de crawlpermissie met de echte matchingregels van Google.