Tester robots.txt

Wpisz domenę, a my pobierzemy jej plik robots.txt, przeanalizujemy każdą grupę reguł i pozwolimy sprawdzić, czy konkretna ścieżka jest dozwolona dla wybranego robota. Nasz mechanizm dopasowania działa według rzeczywistej logiki najdłuższego dopasowania Google, a nie luźnego domyślnego zachowania starszych bibliotek.

Jak działa tester robots.txt

robots.txt to zwykły plik tekstowy w katalogu głównym witryny, który informuje roboty, które ścieżki mogą, a których nie mogą żądać. Każda grupa zaczyna się od jednej lub kilku linii User-agent, po których następują reguły Allow i Disallow. To narzędzie pobiera plik, analizuje każdą grupę i ocenia Twoją ścieżkę dokładnie tak, jak zrobiłby to prawdziwy robot.

Kluczowy szczegół, który większość testerów myli, to pierwszeństwo reguł. Google nie używa pierwszej pasującej reguły; używa najbardziej szczegółowej, co oznacza, że wygrywa najdłuższy pasujący wzorzec ścieżki, a Allow wygrywa, gdy reguła Allow i Disallow mają tę samą długość. Nasz mechanizm dopasowania to realizuje, wraz z symbolem wieloznacznym * i kotwicą końca URL $, więc werdykt zgadza się z Googlebot.

Zablokowanie adresu URL w robots.txt zatrzymuje jedynie przeszukiwanie, a nie indeksowanie. Zablokowana strona może nadal pojawiać się w wynikach wyszukiwania bez opisu, jeśli inne strony do niej linkują. Aby utrzymać stronę poza indeksem, zezwól na przeszukiwanie i użyj zamiast tego metatagu lub nagłówka noindex.

Częste błędy w robots.txt

Disallow: / blokuje całą witrynę - częsty wypadek po wdrożeniu wersji testowej na produkcję.
Blokowanie folderów CSS lub JS, co uniemożliwia Google poprawne wyrenderowanie strony.
Używanie robots.txt do ukrycia strony przed wyszukiwaniem - zamiast tego użyj noindex, ponieważ zablokowane strony nadal mogą zostać zaindeksowane.
Umieszczenie pliku w innym miejscu niż katalog główny domeny - musi znajdować się pod adresem /robots.txt.

Najczęściej zadawane pytania

Czy ten tester robots.txt jest darmowy?

Tak, całkowicie darmowy i bez konieczności zakładania konta. Wpisz domenę oraz opcjonalnie ścieżkę i robota, a natychmiast otrzymasz przeanalizowane reguły wraz z werdyktem dozwolone lub zablokowane.

Czy odpowiada temu, jak Googlebot odczytuje robots.txt?

Tak. Implementujemy pierwszeństwo najdłuższego dopasowania Google, symbol wieloznaczny * oraz kotwicę $, gdzie wygrywa najbardziej szczegółowa reguła, a Allow rozstrzyga remisy. Wiele bibliotek używa pierwszego dopasowania i daje błędną odpowiedź.

Czy zablokowanie adresu URL w robots.txt usuwa go z Google?

Nie. robots.txt kontroluje wyłącznie przeszukiwanie. Zablokowany adres URL może nadal zostać zaindeksowany bez opisu, jeśli jest do niego link z innego miejsca. Użyj tagu lub nagłówka noindex, aby usunąć stronę z indeksu.

Gdzie musi znajdować się plik robots.txt?

W katalogu głównym hosta, pod adresem /robots.txt przez HTTPS. Plik robots.txt w podfolderze jest ignorowany. Każda subdomena potrzebuje własnego pliku.

Monitoruj coś więcej niż tylko robots.txt

robots.txt to tylko jeden element zdrowej witryny. ePulz.io przez całą dobę śledzi dostępność, SSL, DNS i wygaśnięcie domeny oraz powiadamia Cię w ciągu kilku sekund, gdy coś się zepsuje.

Rozpocznij monitorowanie za darmo

O tym narzędziu

Tester robots.txt to jedno z kilku darmowych narzędzi sieciowych i SEO od ePulz.io. Pobiera i analizuje plik robots.txt dowolnej witryny oraz ocenia uprawnienia do przeszukiwania przy użyciu rzeczywistych reguł dopasowania Google.

Powiązane narzędzia

Test SEO (kompleksowy)Generator brand kitu Wygaśnięcie certyfikatu SSL Wyszukiwanie DNS Nagłówki bezpieczeństwa HTTP WHOIS / Wygaśnięcie Darmowe narzędzia - SSL, DNS, nagłówki bezpieczeństwa →