Tester robots.txt
Wpisz domenę, a my pobierzemy jej plik robots.txt, przeanalizujemy każdą grupę reguł i pozwolimy sprawdzić, czy konkretna ścieżka jest dozwolona dla wybranego robota. Nasz mechanizm dopasowania działa według rzeczywistej logiki najdłuższego dopasowania Google, a nie luźnego domyślnego zachowania starszych bibliotek.
Jak działa tester robots.txt
robots.txt to zwykły plik tekstowy w katalogu głównym witryny, który informuje roboty, które ścieżki mogą, a których nie mogą żądać. Każda grupa zaczyna się od jednej lub kilku linii User-agent, po których następują reguły Allow i Disallow. To narzędzie pobiera plik, analizuje każdą grupę i ocenia Twoją ścieżkę dokładnie tak, jak zrobiłby to prawdziwy robot.
Kluczowy szczegół, który większość testerów myli, to pierwszeństwo reguł. Google nie używa pierwszej pasującej reguły; używa najbardziej szczegółowej, co oznacza, że wygrywa najdłuższy pasujący wzorzec ścieżki, a Allow wygrywa, gdy reguła Allow i Disallow mają tę samą długość. Nasz mechanizm dopasowania to realizuje, wraz z symbolem wieloznacznym * i kotwicą końca URL $, więc werdykt zgadza się z Googlebot.
Zablokowanie adresu URL w robots.txt zatrzymuje jedynie przeszukiwanie, a nie indeksowanie. Zablokowana strona może nadal pojawiać się w wynikach wyszukiwania bez opisu, jeśli inne strony do niej linkują. Aby utrzymać stronę poza indeksem, zezwól na przeszukiwanie i użyj zamiast tego metatagu lub nagłówka noindex.
Częste błędy w robots.txt
- Disallow: / blokuje całą witrynę - częsty wypadek po wdrożeniu wersji testowej na produkcję.
- Blokowanie folderów CSS lub JS, co uniemożliwia Google poprawne wyrenderowanie strony.
- Używanie robots.txt do ukrycia strony przed wyszukiwaniem - zamiast tego użyj noindex, ponieważ zablokowane strony nadal mogą zostać zaindeksowane.
- Umieszczenie pliku w innym miejscu niż katalog główny domeny - musi znajdować się pod adresem /robots.txt.
Najczęściej zadawane pytania
Czy ten tester robots.txt jest darmowy?
Tak, całkowicie darmowy i bez konieczności zakładania konta. Wpisz domenę oraz opcjonalnie ścieżkę i robota, a natychmiast otrzymasz przeanalizowane reguły wraz z werdyktem dozwolone lub zablokowane.
Czy odpowiada temu, jak Googlebot odczytuje robots.txt?
Tak. Implementujemy pierwszeństwo najdłuższego dopasowania Google, symbol wieloznaczny * oraz kotwicę $, gdzie wygrywa najbardziej szczegółowa reguła, a Allow rozstrzyga remisy. Wiele bibliotek używa pierwszego dopasowania i daje błędną odpowiedź.
Czy zablokowanie adresu URL w robots.txt usuwa go z Google?
Nie. robots.txt kontroluje wyłącznie przeszukiwanie. Zablokowany adres URL może nadal zostać zaindeksowany bez opisu, jeśli jest do niego link z innego miejsca. Użyj tagu lub nagłówka noindex, aby usunąć stronę z indeksu.
Gdzie musi znajdować się plik robots.txt?
W katalogu głównym hosta, pod adresem /robots.txt przez HTTPS. Plik robots.txt w podfolderze jest ignorowany. Każda subdomena potrzebuje własnego pliku.
Monitoruj coś więcej niż tylko robots.txt
robots.txt to tylko jeden element zdrowej witryny. ePulz.io przez całą dobę śledzi dostępność, SSL, DNS i wygaśnięcie domeny oraz powiadamia Cię w ciągu kilku sekund, gdy coś się zepsuje.
Rozpocznij monitorowanie za darmoO tym narzędziu
Tester robots.txt to jedno z kilku darmowych narzędzi sieciowych i SEO od ePulz.io. Pobiera i analizuje plik robots.txt dowolnej witryny oraz ocenia uprawnienia do przeszukiwania przy użyciu rzeczywistych reguł dopasowania Google.