robots.txt-Tester
Geben Sie eine Domain ein und wir rufen ihre robots.txt ab, analysieren jede Regelgruppe und lassen Sie testen, ob ein bestimmter Pfad für einen ausgewählten Crawler erlaubt ist. Unser Matcher folgt Googles echter Logik der längsten Übereinstimmung, nicht dem laxen Standardverhalten älterer Bibliotheken.
So funktioniert der robots.txt-Tester
robots.txt ist eine reine Textdatei im Stammverzeichnis einer Website, die Crawlern mitteilt, welche Pfade sie anfragen dürfen und welche nicht. Jede Gruppe beginnt mit einer oder mehreren User-agent-Zeilen, gefolgt von Allow- und Disallow-Regeln. Dieses Tool lädt die Datei herunter, analysiert jede Gruppe und wertet Ihren Pfad genau so aus, wie es ein echter Crawler tun würde.
Das entscheidende Detail, das die meisten Tester falsch machen, ist die Priorität. Google verwendet nicht die erste passende Regel, sondern die spezifischste, das heißt das längste passende Pfadmuster gewinnt, und Allow gewinnt, wenn ein Allow und ein Disallow gleich lang sind. Unser Matcher setzt dies um, dazu den Platzhalter * und den Anker $ für das URL-Ende, sodass das Ergebnis dem von Googlebot entspricht.
Das Blockieren einer URL in der robots.txt verhindert nur das Crawlen, nicht die Indexierung. Eine blockierte Seite kann weiterhin ohne Snippet in den Suchergebnissen erscheinen, wenn andere Seiten auf sie verlinken. Um eine Seite aus dem Index herauszuhalten, erlauben Sie das Crawlen und verwenden stattdessen ein noindex-Meta-Tag oder einen entsprechenden Header.
Häufige Fehler in der robots.txt
- Disallow: / blockiert die gesamte Website - ein häufiges Versehen, nachdem ein Staging-Deploy live geht.
- Das Blockieren von CSS- oder JS-Ordnern, wodurch Google die Seite nicht korrekt rendern kann.
- Die robots.txt zu nutzen, um eine Seite vor der Suche zu verbergen - verwenden Sie stattdessen noindex, da blockierte Seiten trotzdem indexiert werden können.
- Die Datei an einem anderen Ort als dem Domain-Stamm abzulegen - sie muss unter /robots.txt liegen.
Häufig gestellte Fragen
Ist dieser robots.txt-Tester kostenlos?
Ja, völlig kostenlos und ohne Konto. Geben Sie eine Domain sowie optional einen Pfad und einen Crawler ein und Sie erhalten sofort die analysierten Regeln samt einem Erlaubt- oder Blockiert-Ergebnis.
Entspricht das Ergebnis dem, wie Googlebot die robots.txt liest?
Ja. Wir setzen Googles Priorität der längsten Übereinstimmung, den Platzhalter * und den Anker $ um, wobei die spezifischste Regel gewinnt und Allow bei Gleichstand den Ausschlag gibt. Viele Bibliotheken nutzen die erste Übereinstimmung und liefern das falsche Ergebnis.
Entfernt das Blockieren einer URL in der robots.txt sie aus Google?
Nein. Die robots.txt steuert nur das Crawlen. Eine per Disallow ausgeschlossene URL kann weiterhin ohne Snippet indexiert werden, wenn von anderer Stelle auf sie verlinkt wird. Verwenden Sie ein noindex-Tag oder einen Header, um eine Seite aus dem Index zu entfernen.
Wo muss die robots.txt liegen?
Im Stammverzeichnis des Hosts, unter /robots.txt über HTTPS. Eine robots.txt in einem Unterordner wird ignoriert. Jede Subdomain benötigt ihre eigene Datei.
Überwachen Sie mehr als nur die robots.txt
Die robots.txt ist nur ein Baustein einer gesunden Website. ePulz.io überwacht Verfügbarkeit, SSL, DNS und Domain-Ablauf rund um die Uhr und benachrichtigt Sie innerhalb von Sekunden, wenn etwas ausfällt.
Kostenlos überwachenÜber dieses Tool
Der robots.txt-Tester ist eines von mehreren kostenlosen Netzwerk- und SEO-Tools von ePulz.io. Er ruft die robots.txt jeder Website ab, analysiert sie und bewertet die Crawl-Berechtigung anhand von Googles echten Matching-Regeln.