Проверка robots.txt

Введите домен, и мы загрузим его robots.txt, разберём каждую группу правил и позволим проверить, разрешён ли конкретный путь для выбранного поискового робота. Наш анализатор следует реальной логике самого длинного совпадения от Google, а не упрощённому подходу старых библиотек.

Как работает проверка robots.txt

robots.txt - это обычный текстовый файл в корне сайта, который сообщает поисковым роботам, какие пути им разрешено или запрещено запрашивать. Каждая группа начинается с одной или нескольких строк User-agent, за которыми следуют правила Allow и Disallow. Этот инструмент загружает файл, разбирает каждую группу и оценивает ваш путь точно так же, как это сделал бы настоящий поисковый робот.

Ключевая деталь, которую большинство проверок понимают неверно, - это приоритет. Google не использует первое подходящее правило; он использует самое конкретное, то есть побеждает самый длинный совпадающий шаблон пути, а при равной длине Allow и Disallow побеждает Allow. Наш анализатор реализует это, а также подстановочный символ * и якорь конца URL $, поэтому вердикт совпадает с поведением Googlebot.

Блокировка URL в robots.txt останавливает только сканирование, но не индексацию. Заблокированная страница всё равно может появиться в результатах поиска без сниппета, если на неё ссылаются другие страницы. Чтобы исключить страницу из индекса, разрешите сканирование и используйте мета-тег noindex или заголовок.

Частые ошибки в robots.txt

Disallow: / блокирует весь сайт - частая случайность после публикации тестовой среды.
Блокировка папок с CSS или JS, из-за чего Google не может корректно отрисовать страницу.
Использование robots.txt для скрытия страницы из поиска - вместо этого применяйте noindex, так как заблокированные страницы всё равно могут быть проиндексированы.
Размещение файла где-либо, кроме корня домена - он должен находиться по адресу /robots.txt.

Часто задаваемые вопросы

Эта проверка robots.txt бесплатна?

Да, полностью бесплатна и без регистрации. Введите домен, а также при желании путь и поискового робота, и вы мгновенно получите разобранные правила и вердикт «разрешено» или «заблокировано».

Соответствует ли она тому, как Googlebot читает robots.txt?

Да. Мы реализуем приоритет самого длинного совпадения от Google, подстановочный символ * и якорь $, где побеждает самое конкретное правило, а при равенстве выигрывает Allow. Многие библиотеки используют первое совпадение и дают неверный ответ.

Удалит ли блокировка URL в robots.txt его из Google?

Нет. robots.txt управляет только сканированием. Запрещённый URL всё равно может быть проиндексирован без сниппета, если на него ссылаются откуда-то ещё. Чтобы удалить страницу из индекса, используйте тег или заголовок noindex.

Где должен находиться robots.txt?

В корне хоста, по адресу /robots.txt через HTTPS. robots.txt во вложенной папке игнорируется. Каждому поддомену нужен собственный файл.

Следите не только за robots.txt

robots.txt - лишь часть здорового сайта. ePulz.io круглосуточно отслеживает доступность, SSL, DNS и срок действия домена и уведомляет вас за считаные секунды, когда что-то ломается.

Начать мониторинг бесплатно

Об этом инструменте

Проверка robots.txt - один из нескольких бесплатных сетевых и SEO-инструментов от ePulz.io. Он загружает и разбирает robots.txt любого сайта и оценивает разрешение на сканирование по реальным правилам совпадения от Google.