Testeur robots.txt
Saisissez un domaine et nous récupérons son robots.txt, analysons chaque groupe de règles et vous permettons de vérifier si un chemin précis est autorisé pour un robot donné. Notre moteur applique la véritable logique de correspondance la plus longue de Google, et non la logique permissive par défaut des anciennes bibliothèques.
Fonctionnement du testeur robots.txt
Le robots.txt est un fichier en texte brut placé à la racine d'un site qui indique aux robots quels chemins ils peuvent ou ne peuvent pas demander. Chaque groupe commence par une ou plusieurs lignes User-agent, suivies de règles Allow et Disallow. Cet outil télécharge le fichier, analyse chaque groupe et évalue votre chemin exactement comme le ferait un vrai robot.
Le détail que la plupart des testeurs gèrent mal est la priorité. Google n'utilise pas la première règle correspondante ; il utilise la plus spécifique, c'est-à-dire que le motif de chemin correspondant le plus long l'emporte, et Allow l'emporte lorsqu'un Allow et un Disallow ont la même longueur. Notre moteur applique cette logique, ainsi que le caractère générique * et l'ancre de fin d'URL $, afin que le verdict corresponde à celui de Googlebot.
Bloquer une URL dans le robots.txt empêche seulement l'exploration, pas l'indexation. Une page bloquée peut toujours apparaître dans les résultats de recherche sans extrait si d'autres pages pointent vers elle. Pour qu'une page reste hors de l'index, autorisez son exploration et utilisez plutôt une balise meta ou un en-tête noindex.
Erreurs courantes de robots.txt
- Disallow: / bloque tout le site - un accident fréquent après la mise en production d'un déploiement de préproduction.
- Bloquer les dossiers CSS ou JS, ce qui empêche Google d'afficher la page correctement.
- Utiliser le robots.txt pour masquer une page de la recherche - utilisez plutôt noindex, car les pages bloquées peuvent quand même être indexées.
- Placer le fichier ailleurs qu'à la racine du domaine - il doit se trouver à /robots.txt.
Questions fréquentes
Ce testeur robots.txt est-il gratuit ?
Oui, entièrement gratuit et sans compte. Saisissez un domaine, ainsi qu'un chemin et un robot facultatifs, et vous obtenez instantanément les règles analysées ainsi qu'un verdict autorisé ou bloqué.
Correspond-il à la façon dont Googlebot lit le robots.txt ?
Oui. Nous appliquons la priorité de correspondance la plus longue de Google, le caractère générique * et l'ancre $, où la règle la plus spécifique l'emporte et Allow départage les égalités. De nombreuses bibliothèques utilisent la première correspondance et donnent une réponse erronée.
Bloquer une URL dans le robots.txt la retire-t-elle de Google ?
Non. Le robots.txt contrôle uniquement l'exploration. Une URL interdite peut toujours être indexée sans extrait si elle est liée depuis ailleurs. Utilisez une balise ou un en-tête noindex pour retirer une page de l'index.
Où doit se trouver le robots.txt ?
À la racine de l'hôte, à /robots.txt en HTTPS. Un robots.txt placé dans un sous-dossier est ignoré. Chaque sous-domaine a besoin de son propre fichier.
Surveillez bien plus que le robots.txt
Le robots.txt n'est qu'un élément d'un site en bonne santé. ePulz.io surveille la disponibilité, le SSL, le DNS et l'expiration du domaine 24h/24 et vous alerte en quelques secondes en cas de problème.
Commencer la surveillance gratuitementÀ propos de cet outil
Le testeur robots.txt est l'un des nombreux outils réseau et SEO gratuits d'ePulz.io. Il récupère et analyse le robots.txt de n'importe quel site et évalue l'autorisation d'exploration selon les véritables règles de correspondance de Google.