Проверка robots.txt
Введите домен, и мы загрузим его robots.txt, разберём каждую группу правил и позволим проверить, разрешён ли конкретный путь для выбранного поискового робота. Наш анализатор следует реальной логике самого длинного совпадения от Google, а не упрощённому подходу старых библиотек.
Как работает проверка robots.txt
robots.txt - это обычный текстовый файл в корне сайта, который сообщает поисковым роботам, какие пути им разрешено или запрещено запрашивать. Каждая группа начинается с одной или нескольких строк User-agent, за которыми следуют правила Allow и Disallow. Этот инструмент загружает файл, разбирает каждую группу и оценивает ваш путь точно так же, как это сделал бы настоящий поисковый робот.
Ключевая деталь, которую большинство проверок понимают неверно, - это приоритет. Google не использует первое подходящее правило; он использует самое конкретное, то есть побеждает самый длинный совпадающий шаблон пути, а при равной длине Allow и Disallow побеждает Allow. Наш анализатор реализует это, а также подстановочный символ * и якорь конца URL $, поэтому вердикт совпадает с поведением Googlebot.
Блокировка URL в robots.txt останавливает только сканирование, но не индексацию. Заблокированная страница всё равно может появиться в результатах поиска без сниппета, если на неё ссылаются другие страницы. Чтобы исключить страницу из индекса, разрешите сканирование и используйте мета-тег noindex или заголовок.
Частые ошибки в robots.txt
- Disallow: / блокирует весь сайт - частая случайность после публикации тестовой среды.
- Блокировка папок с CSS или JS, из-за чего Google не может корректно отрисовать страницу.
- Использование robots.txt для скрытия страницы из поиска - вместо этого применяйте noindex, так как заблокированные страницы всё равно могут быть проиндексированы.
- Размещение файла где-либо, кроме корня домена - он должен находиться по адресу /robots.txt.
Часто задаваемые вопросы
Эта проверка robots.txt бесплатна?
Да, полностью бесплатна и без регистрации. Введите домен, а также при желании путь и поискового робота, и вы мгновенно получите разобранные правила и вердикт «разрешено» или «заблокировано».
Соответствует ли она тому, как Googlebot читает robots.txt?
Да. Мы реализуем приоритет самого длинного совпадения от Google, подстановочный символ * и якорь $, где побеждает самое конкретное правило, а при равенстве выигрывает Allow. Многие библиотеки используют первое совпадение и дают неверный ответ.
Удалит ли блокировка URL в robots.txt его из Google?
Нет. robots.txt управляет только сканированием. Запрещённый URL всё равно может быть проиндексирован без сниппета, если на него ссылаются откуда-то ещё. Чтобы удалить страницу из индекса, используйте тег или заголовок noindex.
Где должен находиться robots.txt?
В корне хоста, по адресу /robots.txt через HTTPS. robots.txt во вложенной папке игнорируется. Каждому поддомену нужен собственный файл.
Следите не только за robots.txt
robots.txt - лишь часть здорового сайта. ePulz.io круглосуточно отслеживает доступность, SSL, DNS и срок действия домена и уведомляет вас за считаные секунды, когда что-то ломается.
Начать мониторинг бесплатноОб этом инструменте
Проверка robots.txt - один из нескольких бесплатных сетевых и SEO-инструментов от ePulz.io. Он загружает и разбирает robots.txt любого сайта и оценивает разрешение на сканирование по реальным правилам совпадения от Google.