robots.txt para IA: Guía Completa de Configuración en 2026

El robots.txt Ya No Es Solo para Google

Durante 30 años, robots.txt fue principalmente para controlar cómo Googlebot y Bingbot indexaban tu sitio. En 2026, hay un nuevo grupo de crawlers que debes considerar: los bots de IA.

Cada proveedor de IA tiene sus propios crawlers con diferentes propósitos. Algunos rastrean para entrenar modelos, otros para búsquedas en tiempo real. Tu configuración de robots.txt determina si tu contenido:

Aparece en respuestas de ChatGPT, Gemini, Claude y Perplexity
Se usa para entrenar futuros modelos de IA
Permanece invisible para sistemas de IA

Esta guía te explica cada crawler, qué hace, y cómo configurarlo según tus necesidades.

Los Crawlers de IA que Debes Conocer

OpenAI (ChatGPT)

OpenAI opera tres crawlers diferentes, cada uno con un propósito específico (OpenAI Platform):

| Crawler | User-Agent | Propósito | Bloquear afecta | |---------|------------|-----------|-----------------| | GPTBot | GPTBot | Entrenamiento de modelos | Futuras versiones de GPT | | OAI-SearchBot | OAI-SearchBot | ChatGPT Search | Aparición en búsquedas | | ChatGPT-User | ChatGPT-User | Navegación de usuarios | Links compartidos en chat |

Importante: Bloquear GPTBot NO afecta OAI-SearchBot. Son independientes. Puedes evitar que entrenen con tu contenido pero seguir apareciendo en búsquedas.

IPs publicadas: OpenAI publica sus rangos de IP en:

GPTBot: openai.com/gptbot.json
SearchBot: openai.com/searchbot.json
ChatGPT-User: openai.com/chatgpt-user.json

Anthropic (Claude)

Anthropic opera crawlers para entrenar Claude y para búsquedas (Anthropic Support):

| Crawler | User-Agent | Propósito | |---------|------------|-----------| | ClaudeBot | ClaudeBot | Entrenamiento de modelos | | Claude-Web | Claude-Web | Búsquedas en tiempo real | | Claude-User | Claude-User | Navegación de usuarios |

Soporte Crawl-delay: Anthropic respeta la directiva Crawl-delay para limitar frecuencia de rastreo.

IPs: Anthropic NO publica rangos de IP. Usan IPs de proveedores cloud públicos, por lo que bloquear por IP no es confiable.

Google (Gemini)

Google usa un token separado para IA generativa (Google Developers):

| Token | Propósito | Afecta Google Search | |-------|-----------|---------------------| | Google-Extended | Entrenamiento de Gemini, grounding | NO | | Googlebot | Indexación para Search | SÍ |

Crítico: Bloquear Google-Extended NO afecta tu posicionamiento en Google Search. Son completamente independientes.

Cómo funciona: Google-Extended no tiene un User-Agent HTTP separado. El crawling lo hace Googlebot, pero el token en robots.txt controla si ese contenido puede usarse para IA.

Perplexity

Perplexity opera dos crawlers (Perplexity Docs):

| Crawler | User-Agent | Propósito | Respeta robots.txt | |---------|------------|-----------|-------------------| | PerplexityBot | PerplexityBot | Indexación para búsquedas | Sí | | Perplexity-User | Perplexity-User | Peticiones de usuarios | Generalmente no |

Nota: Perplexity-User (cuando un usuario pide a Perplexity que visite un link) generalmente ignora robots.txt, similar a cómo un humano visitando tu sitio no sigue robots.txt.

IPs: Publicadas en perplexity.com/perplexitybot.json

Apple (Siri, Spotlight)

Apple tiene crawlers para sus servicios de IA (Apple Support):

| Crawler | User-Agent | Propósito | |---------|------------|-----------| | Applebot | Applebot | Siri, Spotlight, Safari | | Applebot-Extended | Applebot-Extended | Apple Intelligence training |

Importante: Bloquear Applebot-Extended NO afecta resultados en Siri o Spotlight. Solo evita uso para entrenamiento de Apple Intelligence.

Microsoft (Copilot)

Microsoft usa Bingbot para Copilot (Bing Webmasters):

| Crawler | User-Agent | Propósito | |---------|------------|-----------| | Bingbot | Bingbot | Bing Search + Copilot |

Nota: No hay separación entre Bing Search y Copilot. Si bloqueas Bingbot, afectas ambos.

Common Crawl

Common Crawl es un proyecto sin fines de lucro que crea datasets públicos usados para entrenar muchos LLMs (Common Crawl):

| Crawler | User-Agent | Propósito | |---------|------------|-----------| | CCBot | CCBot | Crear datasets de entrenamiento |

Contexto: ~60% de los datos de entrenamiento de GPT-3.5 provienen de Common Crawl. Bloquear CCBot puede reducir tu presencia en futuros modelos.

Meta (Facebook AI)

Meta tiene crawlers para sus modelos de IA:

| Crawler | User-Agent | Propósito | |---------|------------|-----------| | Meta-ExternalAgent | meta-externalagent | Entrenamiento de modelos Meta | | FacebookBot | Facebookbot | Previews en Facebook |

ByteDance (TikTok)

ByteDance opera Bytespider:

| Crawler | User-Agent | Propósito | |---------|------------|-----------| | Bytespider | Bytespider | Entrenamiento de modelos |

Configuraciones por Caso de Uso

Caso 1: Máxima Visibilidad (Permitir Todo)

Si quieres aparecer en todas las plataformas de IA y no te importa que entrenen con tu contenido:

# ============================================
# ROBOTS.TXT - MÁXIMA VISIBILIDAD EN IA
# ============================================

# Buscadores tradicionales
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# OpenAI - Permitir todo
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Anthropic - Permitir todo
User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

# Google AI
User-agent: Google-Extended
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# Apple
User-agent: Applebot
Allow: /

User-agent: Applebot-Extended
Allow: /

# Common Crawl
User-agent: CCBot
Allow: /

# Meta
User-agent: meta-externalagent
Allow: /

# ByteDance
User-agent: Bytespider
Allow: /

# Default
User-agent: *
Allow: /

Sitemap: https://tusitio.com/sitemap.xml

Caso 2: Aparecer en Búsquedas IA, No Entrenar Modelos

Si quieres visibilidad en ChatGPT Search y Perplexity pero NO que tu contenido entrene futuros modelos:

# ============================================
# ROBOTS.TXT - BÚSQUEDA SÍ, ENTRENAMIENTO NO
# ============================================

# Buscadores tradicionales - Permitir
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# OpenAI
User-agent: GPTBot
Disallow: /  # NO entrenar

User-agent: OAI-SearchBot
Allow: /     # SÍ aparecer en búsquedas

User-agent: ChatGPT-User
Allow: /     # SÍ cuando usuarios comparten links

# Anthropic
User-agent: ClaudeBot
Disallow: /  # NO entrenar

User-agent: Claude-Web
Allow: /     # SÍ búsquedas

# Google AI
User-agent: Google-Extended
Disallow: /  # NO entrenar Gemini

# Perplexity
User-agent: PerplexityBot
Allow: /     # SÍ aparecer en Perplexity

# Apple
User-agent: Applebot
Allow: /     # SÍ Siri/Spotlight

User-agent: Applebot-Extended
Disallow: /  # NO entrenar Apple Intelligence

# Common Crawl
User-agent: CCBot
Disallow: /  # NO datasets de entrenamiento

# Meta
User-agent: meta-externalagent
Disallow: /  # NO entrenar

# ByteDance
User-agent: Bytespider
Disallow: /  # NO entrenar

# Default
User-agent: *
Allow: /

Sitemap: https://tusitio.com/sitemap.xml

Caso 3: Bloquear Toda IA (Máxima Protección)

Si no quieres que ninguna IA acceda a tu contenido:

# ============================================
# ROBOTS.TXT - BLOQUEAR TODA IA
# ============================================

# Buscadores tradicionales - Permitir
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# OpenAI - Bloquear todo
User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

# Anthropic - Bloquear todo
User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Claude-User
Disallow: /

# Google AI
User-agent: Google-Extended
Disallow: /

# Perplexity
User-agent: PerplexityBot
Disallow: /

# Apple
User-agent: Applebot-Extended
Disallow: /

# Common Crawl
User-agent: CCBot
Disallow: /

# Meta
User-agent: meta-externalagent
Disallow: /

# ByteDance
User-agent: Bytespider
Disallow: /

# Default
User-agent: *
Allow: /

Sitemap: https://tusitio.com/sitemap.xml

Consecuencia: Tu contenido no aparecerá en respuestas de ChatGPT, Claude, Perplexity, ni Gemini. Esto puede afectar significativamente tu visibilidad en la era de IA.

Caso 4: Proteger Solo Ciertas Secciones

Si quieres permitir IA en tu blog pero proteger contenido premium:

# ============================================
# ROBOTS.TXT - PROTECCIÓN SELECTIVA
# ============================================

# Buscadores tradicionales
User-agent: Googlebot
Allow: /
Disallow: /premium/
Disallow: /members/

User-agent: Bingbot
Allow: /
Disallow: /premium/
Disallow: /members/

# OpenAI
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Disallow: /premium/
Disallow: /members/
Disallow: /api/

User-agent: OAI-SearchBot
Allow: /
Disallow: /premium/
Disallow: /members/

# Anthropic
User-agent: ClaudeBot
Allow: /blog/
Allow: /docs/
Disallow: /premium/
Disallow: /members/

# Perplexity
User-agent: PerplexityBot
Allow: /blog/
Allow: /docs/
Disallow: /premium/
Disallow: /members/

# Default
User-agent: *
Allow: /
Disallow: /premium/
Disallow: /members/

Sitemap: https://tusitio.com/sitemap.xml

Configuración Avanzada

Usar Crawl-delay para Limitar Frecuencia

Si quieres permitir crawlers pero limitar qué tan seguido rastrean:

User-agent: ClaudeBot
Allow: /
Crawl-delay: 10  # Esperar 10 segundos entre requests

User-agent: GPTBot
Allow: /
Crawl-delay: 5

Nota: No todos los crawlers respetan Crawl-delay. Anthropic confirma que sí lo respeta (Anthropic Support).

Verificar que Tu robots.txt Funciona

1. Verificar accesibilidad:

curl -I https://tusitio.com/robots.txt

Debe retornar 200 OK y Content-Type: text/plain.

2. Probar con herramientas de Google:

Google Search Console - robots.txt Tester

3. Verificar sintaxis:

curl https://tusitio.com/robots.txt

Revisa que no haya errores de sintaxis.

Implementación por Plataforma

Next.js (App Router)

Crea src/app/robots.ts:

import { MetadataRoute } from 'next';

export default function robots(): MetadataRoute.Robots {
  const baseUrl = process.env.NEXT_PUBLIC_SITE_URL || 'https://tusitio.com';

  return {
    rules: [
      // Buscadores tradicionales
      {
        userAgent: 'Googlebot',
        allow: '/',
      },
      {
        userAgent: 'Bingbot',
        allow: '/',
      },
      // OpenAI
      {
        userAgent: 'GPTBot',
        allow: '/',
      },
      {
        userAgent: 'OAI-SearchBot',
        allow: '/',
      },
      {
        userAgent: 'ChatGPT-User',
        allow: '/',
      },
      // Anthropic
      {
        userAgent: 'ClaudeBot',
        allow: '/',
      },
      {
        userAgent: 'Claude-Web',
        allow: '/',
      },
      // Google AI
      {
        userAgent: 'Google-Extended',
        allow: '/',
      },
      // Perplexity
      {
        userAgent: 'PerplexityBot',
        allow: '/',
      },
      // Default
      {
        userAgent: '*',
        allow: '/',
        disallow: ['/api/', '/admin/'],
      },
    ],
    sitemap: `${baseUrl}/sitemap.xml`,
  };
}

WordPress

Opción 1: Plugin Yoast SEO

Ve a SEO → Tools → File editor
Edita robots.txt
Agrega las reglas de AI crawlers

Opción 2: Archivo manual

Crea robots.txt en la raíz de tu instalación WordPress
Sube vía FTP

Sitios Estáticos

Simplemente crea robots.txt en la raíz junto a index.html:

tu-sitio/
├── index.html
├── robots.txt    ← Aquí
└── sitemap.xml

Limitaciones de robots.txt

Es importante entender que robots.txt tiene limitaciones:

1. Es Voluntario

robots.txt es un estándar de cortesía. Los crawlers legítimos (Google, OpenAI, Anthropic) lo respetan, pero crawlers maliciosos pueden ignorarlo.

2. No Es Retroactivo

Si tu contenido ya fue rastreado antes de agregar bloqueos, ese contenido ya está en sus datasets. El bloqueo solo aplica hacia adelante.

3. Algunos Crawlers Lo Ignoran

Según un estudio, 13.26% de los bots de IA ignoran robots.txt (Originality.ai). Las empresas más grandes (OpenAI, Anthropic, Google) lo respetan, pero no todos.

4. No Protege Contra Scraping

robots.txt no previene que alguien copie tu contenido manualmente o use herramientas de scraping. Para protección real, necesitas:

Autenticación para contenido premium
Rate limiting
WAF (Web Application Firewall)
Cloudflare Bot Management

Alternativas y Complementos a robots.txt

Cloudflare AI Block

Cloudflare ofrece bloqueo de scrapers de IA con un clic (Cloudflare):

Dashboard → Security → Bots
Activar "Block AI Scrapers and Crawlers"

HTTP Headers

Algunos proponen headers como X-Robots-Tag para control más granular, pero no hay estándar adoptado por proveedores de IA aún.

llms.txt (Complementario)

Mientras robots.txt controla acceso, llms.txt guía a los LLMs sobre qué contenido es importante. Son complementarios.

Para más información: ¿Qué es llms.txt?

Preguntas Frecuentes

¿Bloquear Google-Extended afecta mi SEO en Google?

No. Google confirma que Google-Extended es completamente independiente de Google Search (Google Developers).

¿Cuánto tarda en hacer efecto un cambio en robots.txt?

Depende del crawler:

Perplexity: ~24 horas
Google-Extended: Días a semanas
GPTBot: Variable, depende de cuándo re-crawleen

¿Puedo bloquear solo ciertas páginas para IA?

Sí, usando paths específicos:

User-agent: GPTBot
Allow: /blog/
Disallow: /premium/

¿Los crawlers de IA respetan noindex?

Generalmente no. La meta tag noindex es para buscadores tradicionales. Para IA, usa robots.txt.

¿Debo bloquear todos los crawlers de IA por seguridad?

Depende de tu estrategia. Bloquear todo reduce tu visibilidad en la era de IA. La recomendación es ser selectivo: permitir búsquedas, evaluar si quieres contribuir al entrenamiento.

Lista de User-Agents Completa

Para referencia, aquí está la lista completa de user-agents de crawlers de IA conocidos:

# OpenAI
GPTBot
OAI-SearchBot
ChatGPT-User

# Anthropic
ClaudeBot
Claude-Web
Claude-User
Claude-SearchBot

# Google
Google-Extended

# Perplexity
PerplexityBot
Perplexity-User

# Apple
Applebot
Applebot-Extended

# Microsoft/Bing
Bingbot

# Meta
meta-externalagent
Facebookbot
Meta-ExternalFetcher

# ByteDance
Bytespider

# Common Crawl
CCBot

# Otros
Diffbot
Omgilibot
webzio-extended
ImagesiftBot

Conclusión

Tu robots.txt es la primera línea de control sobre cómo los sistemas de IA interactúan con tu contenido. En 2026, ignorar los crawlers de IA significa ceder el control de tu visibilidad digital.

Recomendación general:

Permite crawlers de búsqueda IA (OAI-SearchBot, PerplexityBot) para visibilidad
Evalúa si quieres contribuir al entrenamiento (GPTBot, ClaudeBot)
Protege contenido premium con paths específicos
Monitorea cambios en las políticas de los proveedores

El equilibrio correcto depende de tu modelo de negocio, pero lo peor que puedes hacer es ignorar el tema.

Continúa Aprendiendo

Este artículo es parte de nuestra serie sobre SEO para la Era de IA:

Guía Completa: SEO para la Era de IA
Cómo Aparecer en ChatGPT, Gemini y Claude
AEO vs SEO vs GEO: Las Diferencias
[Este artículo] - robots.txt para IA: Guía Completa
Cómo Bloquear LLMs de Tu Contenido
Checklist GEO/AEO 2026

Fuentes y Referencias

Documentación Oficial

OpenAI Platform - Overview of Bots - Documentación oficial de GPTBot, OAI-SearchBot, ChatGPT-User
Anthropic Support - ClaudeBot - Política oficial de crawling
Google Developers - Common Crawlers - Documentación de Google-Extended
Perplexity Docs - Bots - Documentación de PerplexityBot
Apple Support - Applebot - Documentación de Applebot
Apple Support - Model Training - Applebot-Extended
Bing Webmasters - Crawlers - Documentación de Bingbot
Common Crawl - CCBot - Documentación oficial

Guías Técnicas

Cloudflare - Block AI Scrapers - Guía de Cloudflare
Originality.ai - Block AI Bots - Estudio sobre compliance de bots
GitHub - ai.robots.txt - Proyecto comunitario de configuraciones
Dark Visitors - AI Agents - Base de datos de crawlers de IA

Última actualización: Enero 2026

Servicios de Nandark

¿Necesitas ayuda configurando tu robots.txt y estrategia de visibilidad en IA?

En Nandark configuramos sitios web para el equilibrio óptimo entre visibilidad y protección de contenido.

Conoce nuestros servicios de optimización o conversemos sobre tu proyecto.