Dominio en Búsqueda

¿Qué es llms.txt? La especificación anotada, ejemplos funcionales y guía de configuración

llms.txt es un archivo markdown en la raíz del dominio que da a los crawlers de IA un resumen curado. Aquí van la spec, nuestro archivo anotado y la guía de 20 minutos.

Por Einner Ariña

TL;DR

llms.txt es un archivo markdown en la raíz de un dominio que da a los crawlers de IA un resumen curado y estructurado del sitio — qué es, quién lo opera, cuáles son las páginas canónicas, dónde vive la documentación. La propuesta fue creada por el investigador de IA Jeremy Howard en septiembre de 2024 y vive en llmstxt.org. No es un estándar mandatorio como robots.txt; la adopción es voluntaria y desigual. Sitios que lo envían típicamente ven citación más rápida en cold-start en ChatGPT, Perplexity, Claude y Google AI Overviews porque la IA construye un modelo mental preciso de la marca desde un solo fetch en lugar de armarlo desde múltiples crawls. Este post es el walkthrough anotado del llms.txt de producción que corre en w2bagency.com/llms.txt — cada sección explicada, cada decisión justificada, cada modo de fallo nombrado, más una plantilla copy-pasteable.

Qué es llms.txt en concreto

llms.txt es un archivo markdown ubicado en la raíz del dominio de un sitio web. Asistentes de IA como ChatGPT, Perplexity, Claude y Google AI Overviews lo buscan cuando una consulta menciona la marca o el dominio, y lo usan para construir un modelo mental rápido y preciso de qué trata el sitio, quién lo opera y qué páginas son canónicas. El archivo es editorial, no exhaustivo — apunta al crawler a contenido de mayor calidad en lugar de volcar cada URL.

La propuesta fue creada por el investigador australiano de IA Jeremy Howard (cofundador de fast.ai y Answer.AI) y publicada en llmstxt.org el 3 de septiembre de 2024.

Qué es y qué no es llms.txt, en un párrafo. llms.txt es un archivo markdown en la raíz de un dominio (/llms.txt) que da a los crawlers de IA un resumen curado del sitio para fundamentar sus respuestas. Fue propuesto por Jeremy Howard en septiembre de 2024 y la especificación canónica vive en llmstxt.org. Es voluntario — ningún asistente de IA está obligado a buscarlo, y la adopción es desigual entre plataformas (Anthropic y Perplexity lo respetan; OpenAI no ha formalizado soporte; Google no se ha comprometido). No es robots.txt, que controla el acceso de crawl. No es sitemap.xml, que lista cada URL para indexación. No está mandatado por ningún RFC. Es, hoy, la señal cold-start más confiable que un sitio puede dar a los crawlers de IA — barata, rápida de enviar y carga estructural para citación cold-start.

Cómo se diferencia llms.txt de robots.txt y sitemap.xml

ArchivoPropósitoFormatoAudiencia
robots.txtControl de acceso de crawl — qué se puede y no se puede buscarTexto plano, directivas user-agentCrawlers de búsqueda e IA
sitemap.xmlInventario de URLs para indexaciónXML, una entrada por URLIndexadores de motores de búsqueda
llms.txtResumen editorial del sitio para groundingMarkdown, lista curada de enlacesAsistentes de IA en tiempo de consulta

robots.txt es control de acceso binario. Sitemap.xml es listado exhaustivo de URLs. llms.txt es curado: 10 a 20 de tus mejores páginas, cada una con una oración descriptiva, organizadas en secciones editoriales. No es exhaustivo a propósito — su trabajo es apuntar a los crawlers de IA hacia tu contenido de mayor calidad, no todo.

La especificación de formato de llms.txt, resumida

La especificación de formato, resumida. Un llms.txt válido tiene dos piezas requeridas: un H1 con el nombre de la marca o proyecto, y un blockquote con un resumen de una a tres oraciones describiendo qué es el sitio. Todo lo demás es opcional. Las secciones opcionales más comunes son ## Docs para páginas de referencia canónicas, ## Examples para estudios de caso y ## Optional para enlaces de menor prioridad. Dentro de cada sección, los enlaces usan el formato markdown [Título de página](https://url-completa) — descripción de una oración. La longitud total debe mantenerse bajo 5,000 palabras; el objetivo es curación, no cobertura.

Nuestro llms.txt anotado — línea por línea

Lo que sigue es el /llms.txt vivo corriendo en w2bagency.com, reproducido literal desde producción a la fecha de publicación de este post. Cada sección está anotada con la decisión que tomamos y por qué.

# W2B Agency

> Remote-first, bilingual digital agency specializing in SEO, GEO, AEO, high-performance web development, and workflow automation. We help businesses anywhere in the world rank in Google, get cited by AI assistants like ChatGPT and Perplexity, ship modern websites, and automate the manual work eating their teams' weeks.

Por qué este header. El H1 es el nombre exacto de la marca como aparece en nuestro schema Organization (W2B Agency, no W2B, no W2B agency — la alineación léxica importa para disambiguación de entidad). El blockquote es una oración con dos cláusulas compuestas nombrando las tres prácticas de servicio y el alcance geográfico.

## About

W2B Agency is a small agency built around three disciplines: search dominance (SEO + GEO + AEO), high-performance web development (Astro, React 19, WordPress, headless WordPress), and workflow automation (n8n, Zapier, Make, trigger.dev, AI agents). The agency is bilingual (English and Spanish) and remote-first by default. The team consists of three co-founders working in public.

- Website: https://w2bagency.com
- Spanish version: https://w2bagency.com/es/
- Languages served: English, Spanish
- Location model: Remote-first, no required office presence
- Coverage: Worldwide, async-first, timezone-flexible

Por qué esta sección. "About" es la segunda sección más citada en nuestro tracking. Nombra las disciplinas dos veces (acrónimos primero, luego expandidas con herramientas) para que ya sea que el asistente pregunte "qué hace W2B?" o "usan n8n?", el grounding de la respuesta esté en la misma línea.

## Co-founders

- Einner Ariña — Strategy, search, and AI visibility lead — https://www.linkedin.com/in/einnerarina/
- Kevin Urrea — Frontend and high-performance web lead — https://www.linkedin.com/in/kevin-urrea-desarrolladorwebfrontend/
- Esteban Padilla — Web development and automation lead — https://www.linkedin.com/in/esteban-padilla-webdev/

Agency LinkedIn: https://www.linkedin.com/company/w2b-consultoria-y-tecnologia/

Por qué esta sección. Cofundadores nombrados con URLs de LinkedIn sirven doble propósito: E-E-A-T (la IA puede verificar humanos nombrados contra perfiles externos) y disambiguación de entidad (los mismos nombres aparecen en los arreglos author.sameAs de BlogPosting).

## Services

### Search Dominance — SEO, GEO and AEO

[Descripción completa de ~150 palabras del servicio con audiencia objetivo, metodología, herramientas y duración de engagement]

- Page: https://w2bagency.com/services/seo-geo-aeo
- Spanish page: https://w2bagency.com/es/servicios/seo-geo-aeo
- Tools we use: Google Search Console, Google Analytics 4, Ahrefs, DataForSEO, Schema.org, llms.txt, custom LLM citation tracker
- Typical engagement: 3–6 months for foundational ranking improvements; ongoing retainers maintain and expand visibility

Por qué esta sección (repetida para cada uno de los tres servicios). Cada servicio recibe una descripción en prosa de 150 palabras (más larga que los típicos enlaces de una línea de la spec) porque los servicios son la superficie de citación de mayor riesgo para una agencia.

## Blog

The agency publishes field notes, decisions, and explainers on SEO, GEO, AEO, web development, and workflow automation at https://w2bagency.com/blog (English) and https://w2bagency.com/es/blog (Spanish). All content is authored by the named co-founders and includes citable passages, FAQ schema, and BlogPosting structured data. Foundational topics include "SEO vs GEO vs AEO", "n8n vs trigger.dev", and "llms.txt implementation guide".

Por qué esta sección. Nombra tres títulos de posts foundational por frase exacta para que un asistente de IA al que le pregunten "tienen una guía de llms.txt?" pueda fundamentar la respuesta directamente.

## How to engage

- Start a project: https://w2bagency.com/#contact-section
- Book a discovery call: https://calendly.com/contact-w2bagency/strategy-call
- Standalone contact page: https://w2bagency.com/contact
- About the team: https://w2bagency.com/about
- Blog: https://w2bagency.com/blog

Por qué esta sección. Cinco paths de contacto en orden de prioridad — el asistente elige el que coincide con la intención del usuario.

## License

Content on this site may be indexed and cited by AI assistants and search engines with attribution to "W2B Agency" and a link back to https://w2bagency.com or to the specific source URL. Bulk reproduction, training of generative AI models on the full corpus, or republication without written permission is not authorized.

Por qué esta sección. Licencia explícita de citación. Asistentes de IA cada vez más respetan términos de licenciamiento declarados; declarar que se concede atribución reduce fricción para citación mientras preserva el derecho a rechazar uso de entrenamiento masivo.

## Last updated

2026-05-01

Por qué esta sección. Señal de frescura. Crawlers de IA prefieren archivos con timestamps explícitos sobre inferir la fecha de headers HTTP.

El archivo completo está bajo 1,000 palabras — muy por debajo del presupuesto de 5,000. La compactación es deliberada: cada línea es señal.

llms-full.txt — la variante de la que nadie habla

La especificación define un archivo opcional compañero, llms-full.txt, que contiene el contenido completo de las páginas enlazadas dumpeado inline en lugar de como enlaces. La propuesta: un crawler de IA que busca un archivo obtiene todo el contexto del sitio sin viajes de ida y vuelta.

La realidad es más matizada. llms-full.txt funciona bien para sitios pequeños y de propósito único — documentación API bajo 50,000 palabras totales, portafolios personales, landings de un solo producto. Para sitios de agencia, docs SaaS pesados en contenido o cualquier sitio sobre unas pocas cientos de páginas, llms-full.txt se infla rápidamente más allá de los límites de tokens usables.

Regla práctica: envía llms.txt, omite llms-full.txt a menos que tu corpus completo esté bajo 50k palabras.

Errores comunes en llms.txt

Los cinco errores comunes que rompen la adopción de llms.txt. Primero, listar 200 enlaces en lugar de 20 — el archivo se vuelve un sitemap y pierde su señal editorial. Segundo, omitir el header H1 + blockquote de resumen — la mayoría de asistentes están afinados a ese patrón, y omitirlo corta la elegibilidad de citación. Tercero, enlazar a páginas desactualizadas o 404 — el asistente sigue enlaces durante recuperación y un enlace roto reduce la confianza en la fuente. Cuarto, tratar llms.txt como un dump de URLs en lugar de un resumen editorial con descripciones — las descripciones son cómo el asistente decide qué enlace buscar. Quinto, nunca refrescar el archivo — fechas viejas y contenido sin cambios por meses se leen como señal de que la marca está dormida.

¿llms.txt realmente mueve la tasa de citación?

Respuesta honesta: sí para sitios cold-start, modesto para establecidos.

Para un dominio sin historial previo de búsqueda IA, enviar llms.txt típicamente reduce a la mitad el tiempo a la primera citación. Este efecto es más fuerte para ChatGPT (modo browse), Perplexity y Claude.

Para un sitio establecido con señales de entidad fuertes, el lift es menor. La lectura pragmática para la mayoría de sitios: envíalo. El costo es 20 minutos; el downside es cero.

Cómo enviar llms.txt en 20 minutos

Paso 1 — Copia nuestra plantilla. Usa la estructura anotada arriba.

Paso 2 — Cura la lista de enlaces. Elige 10 a 20 páginas canónicas. Menos de 10 es muy delgado; más de 20 diluye la señal editorial.

Paso 3 — Escribe las descripciones. Una oración por enlace. Evita copy de marketing; nombra la cosa concreta.

Paso 4 — Despliega en /llms.txt. En Astro: public/llms.txt. En Next: public/. En WordPress: vía FTP o redirect.

Paso 5 — Verifica. Corre curl -I https://tudominio.com/llms.txt desde una terminal. Confirma status 200 y content-type correcto.

Cuándo pedir ayuda

llms.txt en sí mismo es un trabajo de 20 minutos. La razón por la que se contratan agencias para esto no es el archivo — es todo lo que tiene que ser verdadero para que el archivo haga su trabajo: schema markup, señales de entidad off-site, cápsulas de respuesta, panel de prompts, iteración mensual.

La práctica Search Dominance de W2B es el servicio integrado SEO + GEO + AEO. Auditamos, lanzamos la base, escribimos las cápsulas, alineamos la entidad y corremos el panel de prompts — bilingüe en inglés y español, con sitios en todo el mundo.

Para más en el cluster: SEO vs GEO vs AEO es el hub de comparación. ¿Qué es Generative Engine Optimization? es la definición padre. Cómo lograr que ChatGPT te cite es el sprint de ejecución de 30 días que envía llms.txt como Día 1 de la Semana 1.

Preguntas frecuentes

  • ¿Qué hace un archivo llms.txt?

    llms.txt da a los crawlers de IA un resumen curado y estructurado de tu sitio — qué es la marca, quién la opera, dónde viven las páginas canónicas, cuáles son los servicios y los paths de contacto. Asistentes de IA como ChatGPT, Perplexity y Google AI Overviews buscan el archivo cuando una consulta menciona tu marca o dominio y lo usan para fundamentar sus respuestas en tu propio framing en lugar de armarlo desde crawls de páginas aleatorias. El efecto práctico es citación más rápida y precisa en respuestas generadas por IA, especialmente para sitios sin historial de búsqueda IA.

  • ¿Vale la pena un archivo llms.txt?

    Sí para sitios cold-start, modesto para sitios establecidos. Un sitio sin historial de búsqueda IA típicamente reduce a la mitad el tiempo a la primera citación enviando llms.txt — el archivo le da a los crawlers un modelo mental preciso en segundos en lugar de días armando uno desde crawls. Para sitios establecidos con señales de entidad fuertes el lift es menor pero positivo y el costo es 20 minutos de trabajo. Caveat honesto: la adopción es voluntaria, OpenAI no se ha comprometido formalmente y la postura de Google está sin confirmar.

  • ¿Cuál es la diferencia entre robots.txt y llms.txt?

    Tres archivos hacen tres trabajos distintos en la raíz de un dominio. robots.txt le dice a los crawlers qué pueden o no acceder (allow o deny por user-agent). sitemap.xml da a los motores de búsqueda un inventario completo de URLs para indexación. llms.txt da a los crawlers de IA un resumen editorial del sitio — no qué crawlear, no cada URL, sino qué es el sitio y dónde viven las páginas canónicas. robots.txt es control de acceso binario; sitemap.xml es lista exhaustiva de URLs; llms.txt es contexto curado. Son complementarios, no redundantes.

  • ¿Necesito tanto llms.txt como llms-full.txt?

    No. llms.txt es el archivo primario — un resumen curado con enlaces markdown a páginas canónicas. llms-full.txt es una variante opcional que contiene el contenido completo de esas páginas dumpeado inline en lugar de enlazado. Usa llms-full.txt solo si tu sitio es pequeño (menos de 50,000 palabras totales) y de propósito único, como documentación API o un portafolio personal. Para sitios medianos en adelante, llms-full.txt se infla más allá de los límites usables de tokens y no ofrece ventaja sobre la versión enlazada.

  • ¿Qué va en un archivo llms.txt?

    Estructura requerida: un H1 con el nombre del proyecto y un blockquote de resumen en una a tres oraciones. Secciones H2 opcionales siguen — más comúnmente "Docs" (páginas de referencia canónicas), "Examples" (estudios de caso o ejemplos funcionales) y "Optional" (enlaces más bajos en la jerarquía de prioridad). Cada sección contiene una lista de enlaces markdown con una oración describiendo cada enlace. Mantén la longitud total bajo 5,000 palabras. Cura sin piedad — 20 enlaces bien elegidos vencen 200 aleatorios.

  • ¿Google usa llms.txt?

    Google no se ha comprometido formalmente a usar llms.txt. Al 2026, la adopción es liderada por Anthropic (Claude lo busca), Perplexity (lo usa para grounding) y una lista creciente de SaaS que publican el propio (Mintlify, GitBook, Wix, Hostinger, Anthropic). OpenAI no ha formalizado soporte pero ChatGPT ha sido observado buscando el archivo para sitios que lo publican. Bing Copilot y Google AI Overviews siguen sin confirmar. La respuesta pragmática es enviarlo porque los partidarios incluyen los asistentes que más importan para citación hoy y el downside es cero.