El robots.txt Ya No Es Solo para Google
Durante 30 años, robots.txt fue principalmente para controlar cómo Googlebot y Bingbot indexaban tu sitio. En 2026, hay un nuevo grupo de crawlers que debes considerar: los bots de IA.
Cada proveedor de IA tiene sus propios crawlers con diferentes propósitos. Algunos rastrean para entrenar modelos, otros para búsquedas en tiempo real. Tu configuración de robots.txt determina si tu contenido:
- Aparece en respuestas de ChatGPT, Gemini, Claude y Perplexity
- Se usa para entrenar futuros modelos de IA
- Permanece invisible para sistemas de IA
Esta guía te explica cada crawler, qué hace, y cómo configurarlo según tus necesidades.
Los Crawlers de IA que Debes Conocer
OpenAI (ChatGPT)
OpenAI opera tres crawlers diferentes, cada uno con un propósito específico (OpenAI Platform):
| Crawler | User-Agent | Propósito | Bloquear afecta |
|---------|------------|-----------|-----------------|
| GPTBot | GPTBot | Entrenamiento de modelos | Futuras versiones de GPT |
| OAI-SearchBot | OAI-SearchBot | ChatGPT Search | Aparición en búsquedas |
| ChatGPT-User | ChatGPT-User | Navegación de usuarios | Links compartidos en chat |
Importante: Bloquear GPTBot NO afecta OAI-SearchBot. Son independientes. Puedes evitar que entrenen con tu contenido pero seguir apareciendo en búsquedas.
IPs publicadas: OpenAI publica sus rangos de IP en:
- GPTBot:
openai.com/gptbot.json - SearchBot:
openai.com/searchbot.json - ChatGPT-User:
openai.com/chatgpt-user.json
Anthropic (Claude)
Anthropic opera crawlers para entrenar Claude y para búsquedas (Anthropic Support):
| Crawler | User-Agent | Propósito |
|---------|------------|-----------|
| ClaudeBot | ClaudeBot | Entrenamiento de modelos |
| Claude-Web | Claude-Web | Búsquedas en tiempo real |
| Claude-User | Claude-User | Navegación de usuarios |
Soporte Crawl-delay: Anthropic respeta la directiva Crawl-delay para limitar frecuencia de rastreo.
IPs: Anthropic NO publica rangos de IP. Usan IPs de proveedores cloud públicos, por lo que bloquear por IP no es confiable.
Google (Gemini)
Google usa un token separado para IA generativa (Google Developers):
| Token | Propósito | Afecta Google Search |
|-------|-----------|---------------------|
| Google-Extended | Entrenamiento de Gemini, grounding | NO |
| Googlebot | Indexación para Search | SÍ |
Crítico: Bloquear Google-Extended NO afecta tu posicionamiento en Google Search. Son completamente independientes.
Cómo funciona: Google-Extended no tiene un User-Agent HTTP separado. El crawling lo hace Googlebot, pero el token en robots.txt controla si ese contenido puede usarse para IA.
Perplexity
Perplexity opera dos crawlers (Perplexity Docs):
| Crawler | User-Agent | Propósito | Respeta robots.txt |
|---------|------------|-----------|-------------------|
| PerplexityBot | PerplexityBot | Indexación para búsquedas | Sí |
| Perplexity-User | Perplexity-User | Peticiones de usuarios | Generalmente no |
Nota: Perplexity-User (cuando un usuario pide a Perplexity que visite un link) generalmente ignora robots.txt, similar a cómo un humano visitando tu sitio no sigue robots.txt.
IPs: Publicadas en perplexity.com/perplexitybot.json
Apple (Siri, Spotlight)
Apple tiene crawlers para sus servicios de IA (Apple Support):
| Crawler | User-Agent | Propósito |
|---------|------------|-----------|
| Applebot | Applebot | Siri, Spotlight, Safari |
| Applebot-Extended | Applebot-Extended | Apple Intelligence training |
Importante: Bloquear Applebot-Extended NO afecta resultados en Siri o Spotlight. Solo evita uso para entrenamiento de Apple Intelligence.
Microsoft (Copilot)
Microsoft usa Bingbot para Copilot (Bing Webmasters):
| Crawler | User-Agent | Propósito |
|---------|------------|-----------|
| Bingbot | Bingbot | Bing Search + Copilot |
Nota: No hay separación entre Bing Search y Copilot. Si bloqueas Bingbot, afectas ambos.
Common Crawl
Common Crawl es un proyecto sin fines de lucro que crea datasets públicos usados para entrenar muchos LLMs (Common Crawl):
| Crawler | User-Agent | Propósito |
|---------|------------|-----------|
| CCBot | CCBot | Crear datasets de entrenamiento |
Contexto: ~60% de los datos de entrenamiento de GPT-3.5 provienen de Common Crawl. Bloquear CCBot puede reducir tu presencia en futuros modelos.
Meta (Facebook AI)
Meta tiene crawlers para sus modelos de IA:
| Crawler | User-Agent | Propósito |
|---------|------------|-----------|
| Meta-ExternalAgent | meta-externalagent | Entrenamiento de modelos Meta |
| FacebookBot | Facebookbot | Previews en Facebook |
ByteDance (TikTok)
ByteDance opera Bytespider:
| Crawler | User-Agent | Propósito |
|---------|------------|-----------|
| Bytespider | Bytespider | Entrenamiento de modelos |
Configuraciones por Caso de Uso
Caso 1: Máxima Visibilidad (Permitir Todo)
Si quieres aparecer en todas las plataformas de IA y no te importa que entrenen con tu contenido:
# ============================================
# ROBOTS.TXT - MÁXIMA VISIBILIDAD EN IA
# ============================================
# Buscadores tradicionales
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# OpenAI - Permitir todo
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Anthropic - Permitir todo
User-agent: ClaudeBot
Allow: /
User-agent: Claude-Web
Allow: /
# Google AI
User-agent: Google-Extended
Allow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
# Apple
User-agent: Applebot
Allow: /
User-agent: Applebot-Extended
Allow: /
# Common Crawl
User-agent: CCBot
Allow: /
# Meta
User-agent: meta-externalagent
Allow: /
# ByteDance
User-agent: Bytespider
Allow: /
# Default
User-agent: *
Allow: /
Sitemap: https://tusitio.com/sitemap.xml
Caso 2: Aparecer en Búsquedas IA, No Entrenar Modelos
Si quieres visibilidad en ChatGPT Search y Perplexity pero NO que tu contenido entrene futuros modelos:
# ============================================
# ROBOTS.TXT - BÚSQUEDA SÍ, ENTRENAMIENTO NO
# ============================================
# Buscadores tradicionales - Permitir
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# OpenAI
User-agent: GPTBot
Disallow: / # NO entrenar
User-agent: OAI-SearchBot
Allow: / # SÍ aparecer en búsquedas
User-agent: ChatGPT-User
Allow: / # SÍ cuando usuarios comparten links
# Anthropic
User-agent: ClaudeBot
Disallow: / # NO entrenar
User-agent: Claude-Web
Allow: / # SÍ búsquedas
# Google AI
User-agent: Google-Extended
Disallow: / # NO entrenar Gemini
# Perplexity
User-agent: PerplexityBot
Allow: / # SÍ aparecer en Perplexity
# Apple
User-agent: Applebot
Allow: / # SÍ Siri/Spotlight
User-agent: Applebot-Extended
Disallow: / # NO entrenar Apple Intelligence
# Common Crawl
User-agent: CCBot
Disallow: / # NO datasets de entrenamiento
# Meta
User-agent: meta-externalagent
Disallow: / # NO entrenar
# ByteDance
User-agent: Bytespider
Disallow: / # NO entrenar
# Default
User-agent: *
Allow: /
Sitemap: https://tusitio.com/sitemap.xml
Caso 3: Bloquear Toda IA (Máxima Protección)
Si no quieres que ninguna IA acceda a tu contenido:
# ============================================
# ROBOTS.TXT - BLOQUEAR TODA IA
# ============================================
# Buscadores tradicionales - Permitir
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# OpenAI - Bloquear todo
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
# Anthropic - Bloquear todo
User-agent: ClaudeBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Claude-User
Disallow: /
# Google AI
User-agent: Google-Extended
Disallow: /
# Perplexity
User-agent: PerplexityBot
Disallow: /
# Apple
User-agent: Applebot-Extended
Disallow: /
# Common Crawl
User-agent: CCBot
Disallow: /
# Meta
User-agent: meta-externalagent
Disallow: /
# ByteDance
User-agent: Bytespider
Disallow: /
# Default
User-agent: *
Allow: /
Sitemap: https://tusitio.com/sitemap.xml
Consecuencia: Tu contenido no aparecerá en respuestas de ChatGPT, Claude, Perplexity, ni Gemini. Esto puede afectar significativamente tu visibilidad en la era de IA.
Caso 4: Proteger Solo Ciertas Secciones
Si quieres permitir IA en tu blog pero proteger contenido premium:
# ============================================
# ROBOTS.TXT - PROTECCIÓN SELECTIVA
# ============================================
# Buscadores tradicionales
User-agent: Googlebot
Allow: /
Disallow: /premium/
Disallow: /members/
User-agent: Bingbot
Allow: /
Disallow: /premium/
Disallow: /members/
# OpenAI
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /premium/
Disallow: /members/
Disallow: /api/
User-agent: OAI-SearchBot
Allow: /
Disallow: /premium/
Disallow: /members/
# Anthropic
User-agent: ClaudeBot
Allow: /blog/
Allow: /docs/
Disallow: /premium/
Disallow: /members/
# Perplexity
User-agent: PerplexityBot
Allow: /blog/
Allow: /docs/
Disallow: /premium/
Disallow: /members/
# Default
User-agent: *
Allow: /
Disallow: /premium/
Disallow: /members/
Sitemap: https://tusitio.com/sitemap.xml
Configuración Avanzada
Usar Crawl-delay para Limitar Frecuencia
Si quieres permitir crawlers pero limitar qué tan seguido rastrean:
User-agent: ClaudeBot
Allow: /
Crawl-delay: 10 # Esperar 10 segundos entre requests
User-agent: GPTBot
Allow: /
Crawl-delay: 5
Nota: No todos los crawlers respetan Crawl-delay. Anthropic confirma que sí lo respeta (Anthropic Support).
Verificar que Tu robots.txt Funciona
1. Verificar accesibilidad:
curl -I https://tusitio.com/robots.txt
Debe retornar 200 OK y Content-Type: text/plain.
2. Probar con herramientas de Google:
3. Verificar sintaxis:
curl https://tusitio.com/robots.txt
Revisa que no haya errores de sintaxis.
Implementación por Plataforma
Next.js (App Router)
Crea src/app/robots.ts:
import { MetadataRoute } from 'next';
export default function robots(): MetadataRoute.Robots {
const baseUrl = process.env.NEXT_PUBLIC_SITE_URL || 'https://tusitio.com';
return {
rules: [
// Buscadores tradicionales
{
userAgent: 'Googlebot',
allow: '/',
},
{
userAgent: 'Bingbot',
allow: '/',
},
// OpenAI
{
userAgent: 'GPTBot',
allow: '/',
},
{
userAgent: 'OAI-SearchBot',
allow: '/',
},
{
userAgent: 'ChatGPT-User',
allow: '/',
},
// Anthropic
{
userAgent: 'ClaudeBot',
allow: '/',
},
{
userAgent: 'Claude-Web',
allow: '/',
},
// Google AI
{
userAgent: 'Google-Extended',
allow: '/',
},
// Perplexity
{
userAgent: 'PerplexityBot',
allow: '/',
},
// Default
{
userAgent: '*',
allow: '/',
disallow: ['/api/', '/admin/'],
},
],
sitemap: `${baseUrl}/sitemap.xml`,
};
}
WordPress
Opción 1: Plugin Yoast SEO
- Ve a SEO → Tools → File editor
- Edita robots.txt
- Agrega las reglas de AI crawlers
Opción 2: Archivo manual
- Crea
robots.txten la raíz de tu instalación WordPress - Sube vía FTP
Sitios Estáticos
Simplemente crea robots.txt en la raíz junto a index.html:
tu-sitio/
├── index.html
├── robots.txt ← Aquí
└── sitemap.xml
Limitaciones de robots.txt
Es importante entender que robots.txt tiene limitaciones:
1. Es Voluntario
robots.txt es un estándar de cortesía. Los crawlers legítimos (Google, OpenAI, Anthropic) lo respetan, pero crawlers maliciosos pueden ignorarlo.
2. No Es Retroactivo
Si tu contenido ya fue rastreado antes de agregar bloqueos, ese contenido ya está en sus datasets. El bloqueo solo aplica hacia adelante.
3. Algunos Crawlers Lo Ignoran
Según un estudio, 13.26% de los bots de IA ignoran robots.txt (Originality.ai). Las empresas más grandes (OpenAI, Anthropic, Google) lo respetan, pero no todos.
4. No Protege Contra Scraping
robots.txt no previene que alguien copie tu contenido manualmente o use herramientas de scraping. Para protección real, necesitas:
- Autenticación para contenido premium
- Rate limiting
- WAF (Web Application Firewall)
- Cloudflare Bot Management
Alternativas y Complementos a robots.txt
Cloudflare AI Block
Cloudflare ofrece bloqueo de scrapers de IA con un clic (Cloudflare):
- Dashboard → Security → Bots
- Activar "Block AI Scrapers and Crawlers"
HTTP Headers
Algunos proponen headers como X-Robots-Tag para control más granular, pero no hay estándar adoptado por proveedores de IA aún.
llms.txt (Complementario)
Mientras robots.txt controla acceso, llms.txt guía a los LLMs sobre qué contenido es importante. Son complementarios.
Para más información: ¿Qué es llms.txt?
Preguntas Frecuentes
¿Bloquear Google-Extended afecta mi SEO en Google?
No. Google confirma que Google-Extended es completamente independiente de Google Search (Google Developers).
¿Cuánto tarda en hacer efecto un cambio en robots.txt?
Depende del crawler:
- Perplexity: ~24 horas
- Google-Extended: Días a semanas
- GPTBot: Variable, depende de cuándo re-crawleen
¿Puedo bloquear solo ciertas páginas para IA?
Sí, usando paths específicos:
User-agent: GPTBot
Allow: /blog/
Disallow: /premium/
¿Los crawlers de IA respetan noindex?
Generalmente no. La meta tag noindex es para buscadores tradicionales. Para IA, usa robots.txt.
¿Debo bloquear todos los crawlers de IA por seguridad?
Depende de tu estrategia. Bloquear todo reduce tu visibilidad en la era de IA. La recomendación es ser selectivo: permitir búsquedas, evaluar si quieres contribuir al entrenamiento.
Lista de User-Agents Completa
Para referencia, aquí está la lista completa de user-agents de crawlers de IA conocidos:
# OpenAI
GPTBot
OAI-SearchBot
ChatGPT-User
# Anthropic
ClaudeBot
Claude-Web
Claude-User
Claude-SearchBot
# Google
Google-Extended
# Perplexity
PerplexityBot
Perplexity-User
# Apple
Applebot
Applebot-Extended
# Microsoft/Bing
Bingbot
# Meta
meta-externalagent
Facebookbot
Meta-ExternalFetcher
# ByteDance
Bytespider
# Common Crawl
CCBot
# Otros
Diffbot
Omgilibot
webzio-extended
ImagesiftBot
Conclusión
Tu robots.txt es la primera línea de control sobre cómo los sistemas de IA interactúan con tu contenido. En 2026, ignorar los crawlers de IA significa ceder el control de tu visibilidad digital.
Recomendación general:
- Permite crawlers de búsqueda IA (OAI-SearchBot, PerplexityBot) para visibilidad
- Evalúa si quieres contribuir al entrenamiento (GPTBot, ClaudeBot)
- Protege contenido premium con paths específicos
- Monitorea cambios en las políticas de los proveedores
El equilibrio correcto depende de tu modelo de negocio, pero lo peor que puedes hacer es ignorar el tema.
Continúa Aprendiendo
Este artículo es parte de nuestra serie sobre SEO para la Era de IA:
- Guía Completa: SEO para la Era de IA
- Cómo Aparecer en ChatGPT, Gemini y Claude
- AEO vs SEO vs GEO: Las Diferencias
- [Este artículo] - robots.txt para IA: Guía Completa
- Cómo Bloquear LLMs de Tu Contenido
- Checklist GEO/AEO 2026
Fuentes y Referencias
Documentación Oficial
- OpenAI Platform - Overview of Bots - Documentación oficial de GPTBot, OAI-SearchBot, ChatGPT-User
- Anthropic Support - ClaudeBot - Política oficial de crawling
- Google Developers - Common Crawlers - Documentación de Google-Extended
- Perplexity Docs - Bots - Documentación de PerplexityBot
- Apple Support - Applebot - Documentación de Applebot
- Apple Support - Model Training - Applebot-Extended
- Bing Webmasters - Crawlers - Documentación de Bingbot
- Common Crawl - CCBot - Documentación oficial
Guías Técnicas
- Cloudflare - Block AI Scrapers - Guía de Cloudflare
- Originality.ai - Block AI Bots - Estudio sobre compliance de bots
- GitHub - ai.robots.txt - Proyecto comunitario de configuraciones
- Dark Visitors - AI Agents - Base de datos de crawlers de IA
Última actualización: Enero 2026
Servicios de Nandark
¿Necesitas ayuda configurando tu robots.txt y estrategia de visibilidad en IA?
En Nandark configuramos sitios web para el equilibrio óptimo entre visibilidad y protección de contenido.
Conoce nuestros servicios de optimización o conversemos sobre tu proyecto.
