Robots.txt-tester
Voer een domein in en wij halen de robots.txt op, parseren elke regelgroep en laten je testen of een specifiek pad is toegestaan voor een gekozen crawler. Onze matcher volgt de echte logica van de langste overeenkomst van Google, niet de losse standaard van oudere bibliotheken.
Hoe de robots.txt-tester werkt
robots.txt is een platte tekstbestand in de root van een site dat crawlers vertelt welke paden ze wel of niet mogen opvragen. Elke groep begint met een of meer User-agent-regels gevolgd door Allow- en Disallow-regels. Deze tool downloadt het bestand, parseert elke groep en beoordeelt jouw pad precies zoals een echte crawler dat zou doen.
Het belangrijkste detail dat de meeste testers verkeerd doen is de prioriteit. Google gebruikt niet de eerste overeenkomende regel; het gebruikt de meest specifieke, wat betekent dat het langste overeenkomende padpatroon wint, en Allow wint wanneer een Allow en een Disallow even lang zijn. Onze matcher implementeert dit, plus het *-jokerteken en het $-anker voor het einde van de URL, zodat het oordeel overeenkomt met Googlebot.
Een URL blokkeren in robots.txt stopt alleen het crawlen, niet het indexeren. Een geblokkeerde pagina kan nog steeds in de zoekresultaten verschijnen zonder fragment als andere pagina's ernaar linken. Om een pagina uit de index te houden, sta het crawlen toe en gebruik in plaats daarvan een noindex meta-tag of header.
Veelvoorkomende robots.txt-fouten
- Disallow: / blokkeert de hele site - een veelvoorkomend ongeluk nadat een staging-deploy live gaat.
- CSS- of JS-mappen blokkeren, waardoor Google de pagina niet correct kan renderen.
- robots.txt gebruiken om een pagina te verbergen voor de zoekmachine - gebruik in plaats daarvan noindex, aangezien geblokkeerde pagina's nog steeds geindexeerd kunnen worden.
- Het bestand ergens anders plaatsen dan in de root van het domein - het moet op /robots.txt staan.
Veelgestelde vragen
Is deze robots.txt-tester gratis?
Ja, volledig gratis en geen account nodig. Voer een domein en een optioneel pad en crawler in, en je krijgt direct de geparseerde regels plus een oordeel toegestaan of geblokkeerd.
Komt het overeen met hoe Googlebot robots.txt leest?
Ja. We implementeren de prioriteit van de langste overeenkomst van Google, het *-jokerteken en het $-anker, waarbij de meest specifieke regel wint en Allow de doorslag geeft. Veel bibliotheken gebruiken de eerste overeenkomst en geven het verkeerde antwoord.
Verwijdert het blokkeren van een URL in robots.txt die uit Google?
Nee. robots.txt regelt alleen het crawlen. Een geblokkeerde URL kan nog steeds zonder fragment geindexeerd worden als ernaar wordt gelinkt vanaf elders. Gebruik een noindex-tag of header om een pagina uit de index te verwijderen.
Waar moet robots.txt zich bevinden?
In de root van de host, op /robots.txt via HTTPS. Een robots.txt in een submap wordt genegeerd. Elk subdomein heeft zijn eigen bestand nodig.
Bewaak meer dan alleen robots.txt
robots.txt is een onderdeel van een gezonde site. ePulz.io bewaakt uptime, SSL, DNS en het verlopen van domeinen rond de klok en waarschuwt je binnen seconden wanneer er iets stukgaat.
Begin gratis met monitorenOver deze tool
De robots.txt-tester is een van de vele gratis netwerk- en SEO-tools van ePulz.io. Het haalt de robots.txt van een willekeurige site op, parseert die en beoordeelt de crawlpermissie met de echte matchingregels van Google.