Тестер robots.txt
Введіть домен, і ми завантажимо його robots.txt, розберемо кожну групу правил та дамо змогу перевірити, чи дозволений конкретний шлях для обраного краулера. Наш аналізатор дотримується реальної логіки найдовшого збігу від Google, а не неточної поведінки старіших бібліотек за замовчуванням.
Як працює тестер robots.txt
robots.txt - це звичайний текстовий файл у корені сайту, який повідомляє краулерам, які шляхи вони можуть або не можуть запитувати. Кожна група починається з одного чи кількох рядків User-agent, за якими йдуть правила Allow та Disallow. Цей інструмент завантажує файл, розбирає кожну групу та оцінює ваш шлях точно так, як це робив би справжній краулер.
Ключова деталь, яку більшість тестерів обробляють неправильно, - це пріоритет. Google не використовує перше правило, що збігається; він використовує найбільш конкретне, тобто перемагає найдовший шаблон шляху, що збігається, а Allow перемагає, коли Allow і Disallow мають однакову довжину. Наш аналізатор реалізує це, а також символ підстановки * та якір кінця URL-адреси $, тож вердикт відповідає Googlebot.
Блокування URL-адреси в robots.txt лише зупиняє сканування, а не індексацію. Заблокована сторінка все одно може з'явитися в результатах пошуку без сніпета, якщо на неї посилаються інші сторінки. Щоб тримати сторінку поза індексом, дозвольте сканування та використайте метатег noindex або заголовок.
Типові помилки в robots.txt
- Disallow: / блокує весь сайт - часта випадковість після того, як тестовий розгортання потрапляє у продакшн.
- Блокування папок CSS чи JS, що заважає Google коректно відобразити сторінку.
- Використання robots.txt для приховування сторінки з пошуку - натомість використовуйте noindex, оскільки заблоковані сторінки все одно можуть індексуватися.
- Розміщення файлу будь-де, окрім кореня домену - він має бути за адресою /robots.txt.
Часті запитання
Чи безкоштовний цей тестер robots.txt?
Так, повністю безкоштовний і без потреби в обліковому записі. Введіть домен та за бажанням шлях і краулер, і ви миттєво отримаєте розібрані правила плюс вердикт дозволено чи заблоковано.
Чи відповідає він тому, як Googlebot читає robots.txt?
Так. Ми реалізуємо пріоритет найдовшого збігу від Google, символ підстановки * та якір $, де перемагає найбільш конкретне правило, а Allow вирішує нічию. Багато бібліотек використовують перший збіг і дають неправильну відповідь.
Чи видаляє блокування URL-адреси в robots.txt її з Google?
Ні. robots.txt лише керує скануванням. Заборонена URL-адреса все одно може індексуватися без сніпета, якщо на неї посилаються звідкись ще. Використайте тег чи заголовок noindex, щоб видалити сторінку з індексу.
Де має розташовуватися robots.txt?
У корені хоста, за адресою /robots.txt через HTTPS. robots.txt у підпапці ігнорується. Кожен субдомен потребує власного файлу.
Стежте не лише за robots.txt
robots.txt - це лише одна частина здорового сайту. ePulz.io цілодобово стежить за доступністю, SSL, DNS та закінченням терміну домену й сповіщає вас за лічені секунди, коли щось ламається.
Почати моніторинг безкоштовноПро цей інструмент
Тестер robots.txt - це один із кількох безкоштовних мережевих та SEO-інструментів від ePulz.io. Він завантажує та розбирає robots.txt будь-якого сайту й оцінює дозвіл на сканування за реальними правилами збігу від Google.