Robots.txt para Crawlers de IA: Guía Completa de Configuración
Tu archivo robots.txt es la primera puerta que los crawlers de IA encuentran cuando visitan tu sitio. Si los bloqueas — intencionalmente o por accidente — eres invisible para ChatGPT, Claude, Perplexity y Google AI. Si los permites correctamente, les das acceso a tu contenido para que te citen.
Según nuestras auditorías, más del 60% de los sitios web en Colombia bloquean al menos un crawler de IA sin saberlo. Esto significa que son invisibles para las respuestas de IA.
Los crawlers de IA que debes conocer
- GPTBot: El crawler de OpenAI. Si lo bloqueas, ChatGPT no puede acceder a tu contenido para citarte en sus respuestas
- ChatGPT-User: Se activa cuando un usuario de ChatGPT usa la función de búsqueda web. Diferente de GPTBot
- ClaudeBot: El crawler de Anthropic (Claude). Indexa contenido para las respuestas de Claude
- PerplexityBot: Indexa agresivamente para las respuestas de Perplexity.ai
- Google-Extended: Controla el acceso de Gemini/Bard (separado de Googlebot)
- Googlebot: Sigue siendo el más importante — alimenta Google Search Y Google AI Overviews
Configuración recomendada
Para máxima visibilidad en IA, tu robots.txt debe permitir explícitamente el acceso a todos los crawlers de IA con directivas Allow. También debe incluir la referencia a tu sitemap y llms.txt.
Errores comunes
- Disallow global: Un "Disallow: /" para User-agent: * bloquea TODOS los crawlers, incluyendo los de IA
- WordPress por defecto: Muchas instalaciones de WordPress bloquean /wp-admin/ y /wp-includes/ pero algunos temas también bloquean recursos que los crawlers necesitan
- Firewall/CDN: Algunos firewalls y CDNs bloquean crawlers de IA a nivel de red, antes de que lleguen a tu robots.txt