Robots.txt para Crawlers de IA: Guía Completa de Configuración

Por José Felipe Bello · Abril 2026

Tu archivo robots.txt es la primera puerta que los crawlers de IA encuentran cuando visitan tu sitio. Si los bloqueas — intencionalmente o por accidente — eres invisible para ChatGPT, Claude, Perplexity y Google AI. Si los permites correctamente, les das acceso a tu contenido para que te citen.

Según nuestras auditorías, más del 60% de los sitios web en Colombia bloquean al menos un crawler de IA sin saberlo. Esto significa que son invisibles para las respuestas de IA.

Los crawlers de IA que debes conocer

GPTBot: El crawler de OpenAI. Si lo bloqueas, ChatGPT no puede acceder a tu contenido para citarte en sus respuestas
ChatGPT-User: Se activa cuando un usuario de ChatGPT usa la función de búsqueda web. Diferente de GPTBot
ClaudeBot: El crawler de Anthropic (Claude). Indexa contenido para las respuestas de Claude
PerplexityBot: Indexa agresivamente para las respuestas de Perplexity.ai
Google-Extended: Controla el acceso de Gemini/Bard (separado de Googlebot)
Googlebot: Sigue siendo el más importante — alimenta Google Search Y Google AI Overviews

Configuración recomendada

Para máxima visibilidad en IA, tu robots.txt debe permitir explícitamente el acceso a todos los crawlers de IA con directivas Allow. También debe incluir la referencia a tu sitemap y llms.txt.

Errores comunes

Disallow global: Un "Disallow: /" para User-agent: * bloquea TODOS los crawlers, incluyendo los de IA
WordPress por defecto: Muchas instalaciones de WordPress bloquean /wp-admin/ y /wp-includes/ pero algunos temas también bloquean recursos que los crawlers necesitan
Firewall/CDN: Algunos firewalls y CDNs bloquean crawlers de IA a nivel de red, antes de que lleguen a tu robots.txt

¿Quieres implementar GEO?

Solicitar GEO Score Gratis