Capítulo 5: Más allá del Transformer (≈ 2022 - Q1 2026)¶

⏱️ Tiempo de lectura: 10 min

Actualización

Este capítulo cubre el estado del campo hasta Q1 2026. Los apartados sobre modelos concretos, capital invertido y benchmarks están sujetos a cambio rápido, los apartados sobre limitaciones estructurales del Transformer son estables.

Este capítulo no llega después del anterior solo en sentido cronológico. Llega después en sentido conceptual. El escalado del Transformer sigue siendo una fuerza central, pero ya no basta por sí solo para describir hacia dónde se mueve la frontera.

Durante los últimos años han ido apareciendo varias intuiciones nuevas. Algunas intentan resolver límites prácticos del propio Transformer, como el coste de contexto largo y la memoria. Otras amplían el tipo de sistema que construimos: modelos que usan herramientas, buscan activamente soluciones, aprenden durante la inferencia o intentan construir representaciones internas del mundo en lugar de limitarse a predecir la siguiente pieza de texto.

Este capítulo recorre esa nueva fase.

1. Por qué el Transformer ya no basta como mapa completo¶

El Transformer reorganizó el campo porque era paralelizable, escalable y extremadamente general. Pero precisamente al escalarlo empezaron a hacerse visibles varios límites.

El primero es computacional. La atención estándar crece de forma costosa con la longitud del contexto, y eso convierte la memoria larga en un problema de hardware y eficiencia.

El segundo es funcional. Un Transformer preentrenado sabe muchísimo, pero sus pesos suelen quedar fijos en inferencia. Puede usar el contexto inmediato, pero no incorpora con naturalidad una memoria viva y persistente que aprende mientras trabaja.

El tercero es estructural. Predecir bien la siguiente pieza de una secuencia no equivale necesariamente a planificar, buscar activamente una solución, manipular herramientas externas o construir un modelo causal del entorno.

Por eso la frontera actual no consiste solo en entrenar modelos más grandes. Consiste en combinar escala con memoria, búsqueda, herramientas y representación del mundo.

1.1 Verdad, incertidumbre y alucinación¶

Aquí aparece otro límite importante. Los LLMs generativos basados en predicción del siguiente token no están optimizados directamente para distinguir entre verdad, falsedad y desconocimiento. Están optimizados para producir continuaciones plausibles dadas unas distribuciones de entrenamiento y unas señales de recompensa. Cuando la información es insuficiente o el contexto está mal especificado, esa presión puede empujar al modelo a completar en lugar de abstenerse.

Por eso conviene ser cuidadosos con cómo se formula el problema. Hay argumentos serios para pensar que, en sistemas abiertos de propósito general, las alucinaciones no van a desaparecer por completo. La teoría reciente ha defendido que son inevitables para LLMs computables usados como resolvedores generales, y trabajos más aplicados sostienen que los procedimientos estándar de entrenamiento y evaluación premian adivinar antes que reconocer incertidumbre.

Dicho eso, también sería excesivo convertir esta idea en una condena absoluta del Transformer como arquitectura o afirmar que toda mitigación es superficial. Buena parte del problema depende del objetivo de entrenamiento, de la calibración, de la capacidad de abstención y del acceso a verificación externa. Recuperación, herramientas, verificación, detección de incertidumbre y políticas explícitas de no responder pueden reducir mucho las alucinaciones en dominios acotados. El enunciado más sólido, por tanto, no es que el problema vaya a desaparecer, sino que en sistemas generativos abiertos sigue siendo un límite estructural serio, aunque pueda amortiguarse de forma sustancial en productos bien diseñados.

2. Del siguiente token a la búsqueda sobre el espacio de soluciones¶

Una de las líneas más importantes de esta nueva fase consiste en volver a tomarse en serio algo que el auge de los LLMs había dejado un poco en segundo plano: la búsqueda.

En 2016, AlphaGo mostró que una red neuronal muy potente no bastaba por sí sola: el sistema combinaba redes, búsqueda en árbol y aprendizaje por refuerzo para navegar un espacio de juego inmenso. En 2017, AlphaZero generalizó ese enfoque a Go, ajedrez y shogi partiendo solo de las reglas del juego. La idea de fondo ya estaba ahí: en ciertos problemas, la inteligencia práctica no consiste solo en predecir bien una respuesta, sino en explorar activamente un espacio de posibilidades y evaluar trayectorias prometedoras.

Esa lógica reaparece más tarde en otros contextos. En 2022, ReAct mostró que incluso en agentes basados en lenguaje el rendimiento mejora cuando el sistema alterna razonamiento y acción, consulta herramientas externas, observa el resultado y usa esa información para decidir el paso siguiente. No es un descendiente directo de AlphaGo en sentido arquitectónico, pero sí participa del mismo giro más amplio: dejar atrás la idea de que un modelo útil se limita a producir una respuesta en un solo paso.

El agente como bucle, no como flecha

Un agente no percibe, piensa y actúa en línea recta. Verifica, actualiza su estado y vuelve a observar. La arquitectura es un bucle cerrado con objetivo al centro.

👁

Observar

Percibe el entorno: mensajes, resultados de herramientas previas, estado del sistema, imágenes o documentos. Todo lo que cabe en la ventana de contexto actual.

textoimágenesresultados anterioresestado del entorno

🧠

Planear

Razona qué acción tomar dado el objetivo y lo observado. Puede descomponer tareas complejas en subpasos y seleccionar la herramienta adecuada antes de actuar.

chain-of-thoughtsubobjetivosselección de herramienta

⚡

Ejecutar

Lleva a cabo la acción: llamada a API, ejecución de código, búsqueda, generación de texto o interacción con el entorno físico o digital.

tool callscódigoAPIs externasescritura

✅

Verificar

Evalúa el resultado. ¿Se logró lo esperado? ¿Hubo error? Si falla, el bucle se reinicia con información adicional. Esta etapa distingue un agente de un chatbot.

evaluación de resultadodetección de errordecisión de continuar

💾

Actualizar memoria

Guarda lo relevante antes de volver a observar. El contexto de ventana es temporal; la memoria externa persiste entre sesiones. Sin esta etapa, el agente repite errores.

contexto de ventanamemoria vectorialhistorial de pasos

La línea de DeepMind sí puede contarse ya de forma continua. En julio de 2024, AlphaProof y AlphaGeometry 2 mostraron que una combinación de modelos de lenguaje, búsqueda y aprendizaje por refuerzo podía alcanzar nivel de medalla de plata en la Olimpiada Internacional de Matemáticas. En mayo de 2025, AlphaEvolve llevó esa idea al descubrimiento algorítmico: modelos Gemini, evaluadores automáticos y un marco evolutivo trabajando juntos para mejorar código y encontrar algoritmos nuevos. Ese mismo año, en la evaluación oficial de la IMO 2025, Gemini Deep Think alcanzó nivel de medalla de oro, consolidando la idea de que la combinación de modelo base, búsqueda activa y verificación formal puede superar el umbral de los mejores competidores humanos en matemáticas olímpicas.

La retrospectiva de DeepMind publicada en marzo de 2026 sobre los diez años de AlphaGo hace explícita esta genealogía. Allí presenta tanto AlphaProof como AlphaEvolve como continuaciones de la misma intuición que hizo potente a AlphaGo y AlphaZero: combinar modelos capaces con búsqueda, verificación y planificación para recorrer espacios enormes donde responder bien una sola vez no basta.

Lo que empieza a aparecer aquí es un cambio de unidad básica. El sistema útil ya no es solo el modelo, sino el modelo más búsqueda, más herramientas y más evaluación.

Del siguiente token a la búsqueda sobre el espacio de soluciones

PREDICCIÓN DIRECTA

Un camino — sin explorar alternativas

CON BÚSQUEDA

Explorar · evaluar · seleccionar la mejor trayectoria

En ciertos problemas, la inteligencia práctica no consiste en predecir bien una respuesta una vez, sino en explorar activamente un espacio de posibilidades y evaluar trayectorias prometedoras.

2016

AlphaGo

Redes neuronales + búsqueda en árbol + RL → primer sistema en derrotar a un campeón mundial en Go

2017

AlphaZero

Solo las reglas del juego, sin datos humanos → domina Go, ajedrez y shogi mediante self-play y búsqueda

2022

ReAct

LLMs que alternan razonamiento y acción, consultan herramientas y observan resultados antes de decidir el paso siguiente

2024

AlphaProof

LLM + búsqueda + RL formal → medalla de plata en la Olimpiada Internacional de Matemáticas

2025

AlphaEvolve

Modelos Gemini + evaluadores automáticos + marco evolutivo → descubrimiento y mejora de algoritmos matemáticos

La intuición central de AlphaGo reaparece nueve años después en matemáticas y código: combinar modelos capaces con búsqueda, verificación y planificación para recorrer espacios enormes.

3. Memoria más allá de la ventana de contexto¶

Otra frontera clara es la memoria. Los LLMs han ampliado mucho su contexto, pero una ventana larga no es lo mismo que una memoria persistente y selectiva.

Tres tipos de memoria, tres lógicas distintas

Ventana larga ≠ memoria viva ≠ aprendizaje permanente. Confundirlos lleva a expectativas incorrectas sobre qué puede recordar un agente y cuándo.

1

Contexto inmediato

Lo que está activo en la ventana ahora mismo

instrucción del sistema

historial de conversación

documentos adjuntos

consulta actual

Ventana de contexto (ej: 128K tokens)

Acceso instantáneo y sin latencia

Se borra al terminar la sesión

Coste computacional crece con el tamaño

El modelo "ve" todo lo que hay en la ventana, pero no lo aprende ni lo retiene.

2

Memoria externa

Lo que se recupera de fuera en tiempo de uso

🗄

Base vectorial / RAG

búsqueda por similitud

📄

fragmentos recuperados → ventana

Persiste entre sesiones

Escala a millones de documentos

Solo accesible si se recupera activamente

El modelo no "recuerda" documentos; los consulta cuando se los acercan. La recuperación puede fallar.

3

Memoria paramétrica

Lo que el modelo incorporó durante el entrenamiento

Pesos del modelo (fijos en inferencia)

Siempre disponible, sin recuperación

Conocimiento comprimido del entrenamiento

Congelado: no aprende nada nuevo en uso

Sujeto a alucinaciones y corte de datos

Lo que el modelo "sabe" intrínsecamente. No puede actualizarse sin reentrenar.

El error más común

Ampliar la ventana de contexto no convierte el contexto inmediato en memoria persistente. Y recuperar documentos con RAG no equivale a que el modelo haya aprendido su contenido. Son tres mecanismos distintos con propiedades distintas.

3.1 Mamba y el regreso de los State Space Models¶

Los state space models (SSM) son una familia de arquitecturas con raíces en la teoría de control clásica: en lugar de calcular atención entre todos los pares de tokens del contexto, mantienen un vector de estado oculto compacto que se actualiza en cada paso de la secuencia, lo que les permite procesar secuencias largas con coste lineal en lugar del cuadrático que impone la atención estándar.

Mamba recuperó esa tradición con una idea clave: hacer que parte de sus parámetros dependan del input para mejorar la selección de información relevante y conseguir escalado lineal en longitud de secuencia. El punto no era solo acelerar. Era intentar conservar capacidad de razonamiento sobre secuencias largas sin pagar siempre el coste de atención completa.

Mamba-2 fue más lejos y mostró una relación matemática profunda entre atención y state space models, proponiendo una capa refinada más rápida y competitiva. El mensaje de fondo es importante: quizá no estemos ante una ruptura total con el Transformer, sino ante una familia más amplia de mecanismos de memoria y secuencia.

3.2 Titans, MIRAS y la memoria que aprende durante la inferencia¶

La línea de Google Research va todavía un paso más allá. Titans introduce una memoria neuronal a largo plazo que se actualiza mientras el modelo está funcionando. La idea central no es solo guardar más contexto, sino decidir qué merece consolidarse como memoria en función de su novedad o sorpresa.

Google presentó después Titans + MIRAS como una línea explícita hacia test-time memorization: sistemas que mantienen memoria útil durante la ejecución sin depender únicamente de reentrenamiento offline. Ahí aparece una intuición importante para la etapa actual: quizá aprender no deba quedar confinado al entrenamiento. Quizá parte del aprendizaje relevante ocurra también en uso.

3.3 Nested Learning¶

Esa misma dirección culmina, por ahora, en Nested Learning, presentado por Google Research en 2025 como un paradigma de aprendizaje continuo basado en problemas de optimización anidados con distintas frecuencias de actualización. La idea es reinterpretar arquitectura y optimización como partes de un mismo sistema multinivel.

No es todavía un nuevo estándar del campo. Pero sí señala algo importante: el futuro del aprendizaje puede depender menos de un único gran bucle de entrenamiento y más de varios niveles de adaptación con ritmos distintos, desde memoria inmediata hasta modificación interna más persistente.

Más allá del Transformer: tres problemas, tres respuestas

Mamba, Titans y enfoques de aprendizaje continuo atacan límites distintos del Transformer. No son sustitutos generales: son soluciones a problemas concretos.

LIMITACIÓN DEL TRANSFORMER

O(N²)

La autoatención tiene coste cuadrático. Al doblar el contexto, el cómputo se cuadruplica. Para secuencias largas (audio, genómica, documentos extensos), el Transformer es prohibitivamente caro.

IDEA NUEVA

SSM

Los State Space Models procesan tokens en un estado oculto compacto que se actualiza en cada paso. Coste lineal O(N). Mamba añade selectividad: el estado decide qué información retener en cada momento.

TRADEOFF

±

Eficiente en secuencias largas, pero el estado oculto es comprimido: puede perder dependencias a largo plazo que la atención completa captaría. Menos expresivo en tareas donde importa cada relación entre tokens.

LIMITACIÓN DEL TRANSFORMER

KV

La memoria del Transformer vive solo en la caché KV de la ventana activa. Fuera de la ventana, el modelo no recuerda nada. Ampliar la ventana es costoso y no resuelve la persistencia real entre sesiones.

IDEA NUEVA

∇W

Titans usa los propios pesos del modelo como memoria en inferencia. Una red secundaria aprende a comprimir y recuperar información relevante actualizando sus parámetros durante el uso, sin reentrenamiento completo.

TRADEOFF

±

Memoria persistente sin ventana grande, pero el aprendizaje en inferencia añade latencia. La memoria puede corromperse o sobrescribirse sin una gestión cuidadosa del olvido. Arquitectura más compleja de entrenar.

LIMITACIÓN DEL TRANSFORMER

✗∇

Los modelos actuales se entrenan una vez y se congelan. Aprender algo nuevo requiere reentrenar o hacer fine-tuning, que puede causar "olvido catastrófico": el modelo pierde conocimiento previo al adquirir nuevo.

IDEA NUEVA

CL

El aprendizaje continuo (Continual Learning) busca que el modelo incorpore conocimiento incremental sin olvidar lo anterior. Técnicas: regularización de pesos importantes, módulos expansibles, arquitecturas con memoria episódica.

TRADEOFF

±

Mitigar el olvido catastrófico es difícil: las soluciones actuales funcionan bien en dominios estrechos pero escalan con dificultad. El equilibrio estabilidad-plasticidad sigue siendo un problema abierto a escala.

4. Modelos del mundo: aprender estructura, no solo secuencias¶

Otra línea fuerte intenta ir más allá de la predicción del siguiente token y aprender representaciones internas de cómo evoluciona un entorno.

World models: simular antes de actuar

Un modelo secuencial predice el siguiente estado. Un world model simula varios futuros posibles antes de elegir qué hacer. La diferencia es la capacidad de anticipar, no solo de continuar.

MODELO SECUENCIAL

Predice el siguiente estado

El modelo predice paso a paso. No puede evaluar consecuencias antes de actuar.

Solo continúa la secuencia. Sin simulación interna del entorno.

vs

WORLD MODEL

Simula varios futuros posibles

El modelo simula colisión, rebote y alternativas antes de actuar. Elige la trayectoria con mejor resultado anticipado.

Anticipa dinámicas del entorno. Planifica antes de comprometerse con una acción.

🚫

IMPLICACIÓN 1 · PREVENCIÓN

Rechazar antes de actuar

Un world model puede descartar acciones que llevan a un estado indeseable antes de ejecutarlas. Un modelo secuencial solo puede aprender de lo que ya ocurrió.

🤖

IMPLICACIÓN 2 · AGENTES FÍSICOS

Necesario, no opcional

Para robótica, conducción autónoma o agentes en el mundo físico, simular consecuencias antes de actuar es una capacidad estructural, no un añadido.

🔬

ESTADO DEL ARTE · DEBATE ABIERTO

¿Arquitectura distinta o LLM?

DreamerV3 y los modelos JEPA de LeCun apuntan en esta dirección. El debate es si los LLMs ya contienen representaciones implícitas de world model o si hace falta una arquitectura distinta.

DreamerV3, y después su versión publicada en Nature, mostró que un world model puede aprender a imaginar futuros posibles y reutilizar esa capacidad para resolver más de 150 tareas con una sola configuración, incluyendo la recolección de diamantes en Minecraft desde cero. La clave no es solo el rendimiento, sino el tipo de enfoque: el sistema aprende un modelo latente del entorno y planifica dentro de él.

En paralelo, I-JEPA empuja una intuición distinta pero cercana. En vez de reconstruir todos los píxeles, propone predecir representaciones semánticas en un espacio latente. No es un world model completo en el sentido de Dreamer, pero sí pertenece a la misma familia de ideas que priorizan estructura sobre reconstrucción literal.

Genie 2 lleva esta dirección a un terreno especialmente sugerente: generar entornos 3D jugables y controlables a partir de una sola imagen de entrada. Todavía estamos en una fase temprana y demostrativa, pero la tesis ya es visible: si un sistema puede modelar dinámicas de mundo suficientemente bien, entonces puede servir no solo para responder preguntas, sino para entrenar agentes y explorar espacios de acción.

4.1 La tesis ya mueve capital¶

Esta idea ha dejado de ser solo una línea académica. En marzo de 2026, Reuters informó de que AMI, la startup de Yann LeCun, recaudó 1.030 millones de dólares para desarrollar sistemas centrados en razonamiento, planificación y modelado del mundo real. Un mes antes, Reuters informó de que World Labs de Fei-Fei Li levantó 1.000 millones para avanzar en “spatial intelligence”.

El dato no prueba que esa sea la vía ganadora. Pero sí muestra que una parte relevante del ecosistema cree que el siguiente salto no llegará solo por escalar lenguaje, sino por modelar mejor la estructura espacial, causal e interactiva del mundo.

Ya no estamos viendo apuestas de laboratorio que se midan en cientos de millones. Solo en 2026, OpenAI anunció \$110.000 millones de nueva inversión, Anthropic cerró \$30.000 millones y xAI otros \$20.000 millones. En paralelo, las grandes tecnológicas planean alrededor de \$635.000 millones de gasto de capital en IA solo en 2026.

La señal es difícil de ignorar: la frontera dejó de ser únicamente un problema de algoritmo. El dinero se está desplazando hacia cuatro cuellos de botella concretos: modelos, cómputo, energía y mundo físico porque entrenar mejor ya no basta.

Ahora también hay que desplegar, alimentar y dar percepción y acción espacial a esos sistemas en el mundo real.

La frontera ya no escala solo en el modelo

El capital ya no se concentra solo en los laboratorios fundacionales: se reparte entre modelos, cómputo e infraestructura, energía firme y robótica del mundo físico. La tesis implícita de 2025–26: el siguiente salto requiere sistema completo, no solo más parámetros.

🧠

Modelos

Razonamiento, multimodalidad y nuevas arquitecturas

$165B+ visibles en capital anunciado o captado

OpenAI$110B2026

Anthropic$30B2026

xAI$20B2026

Mistral, SSI, Thinking Machines y Cohere~$5B2024–26

⚡

Cómputo e infraestructura

Centros de datos, nubes especializadas y aceleración

$635B de gasto de capital en IA en 2026; $23B+ visibles en actores especializados

Grandes tecnológicas (estim.)$635B2026

CoreWeave$14.5B+acum.

Nebius$4.34B2026

Groq$2.1B+2024–25

Cerebras + SambaNova$2B+visibles

🔋

Energía para el cómputo

Nuclear avanzada y potencia firme para centros de datos

1.95 GW+ visibles; >5 GW de objetivo y $500M de financiación

Microsoft + Constellation835 MWPPA a 20 años

Google + Kairos Power500 MW2030–35

Amazon + X-energy$500Mfinanciación 2024

Amazon + Energy Northwest320 MWfase inicial

Amazon + Dominion300 MWVirginia

🤖

Robótica y mundo físico

Inteligencia encarnada, modelos espaciales y robots generalistas

$5.2B+ visibles (AMI, World Labs, Skild, Figure, Physical Intelligence, Apptronik, 1X)

AMI$1.03B2026

World Labs$1B2026

Skild AI$1.7B2024–26

Figure AI$675M2024

Physical Intelligence$400M2024

Apptronik + 1X$450M2024–25

La tesis que el capital señala

El cuello de botella ya no es solo algorítmico. La frontera depende de cómputo disponible, energía firme, capacidad física de despliegue y sistemas que puedan actuar fuera de la pantalla. El actor dominante no será solo quien entrene el mejor modelo, sino quien cierre mejor las cuatro capas a la vez.

5. Del modelo al cuerpo: robótica y acción física¶

Si la frontera se desplaza hacia sistemas que perciben, planifican y actúan, la robótica deja de ser una nota al pie y vuelve al centro del debate.

RT-2 mostró que un modelo visión-lenguaje-acción puede transferir parte del conocimiento adquirido en datos web a tareas de control robótico. El punto importante aquí no es solo que el robot ejecute movimientos, sino que aproveche representaciones más generales para interpretar instrucciones y generalizar mejor fuera del conjunto de entrenamiento estrictamente robótico.

Figure representa bien una de las apuestas más visibles de esta etapa. Primero, por su orientación comercial temprana: en 2024 anunció una alianza con BMW para desplegar robots humanoides en planta. Después, por su capa de inteligencia: Helix se presentó en 2025 como un modelo visión-lenguaje-acción generalista para control de humanoides, capaz de operar con el cuerpo superior completo y coordinar incluso dos robots en tareas compartidas. Y, ya a finales de 2025, la propia empresa publicó métricas de despliegue de Figure 02 en BMW, con horas acumuladas de operación, piezas manipuladas y contribución documentada a producción. Figure combina, por tanto, una narrativa clara de VLA generalista con despliegue industrial explícito.

Tesla representa una apuesta distinta. Su enfoque con Optimus es el de un humanoide generalista profundamente integrado con el resto de su stack de IA física, percepción, control y manufactura. La compañía lo presenta como un robot autónomo de propósito general para tareas inseguras, repetitivas o aburridas. A nivel público, sin embargo, la evidencia a Q1 2026 sigue siendo más programática que la de Figure: Reuters recogió en 2024 que Tesla aspiraba a usar Optimus internamente en baja escala en 2025 y a escalar después hacia clientes externos, pero esa ambición sigue siendo más una hoja de ruta corporativa que un despliegue industrial público tan documentado como el de Figure.

NVIDIA Project GR00T expresa la misma intuición desde otro ángulo: modelos fundacionales para robots humanoides, unidos a simulación, datos sintéticos, percepción y hardware específico.

Todavía no estamos ante robots generalistas fiables en cualquier entorno. Pero sí ante un cambio claro de enfoque. La robótica empieza a heredar la lógica de los modelos fundacionales: una misma base intenta transferirse a muchas tareas distintas en lugar de reprogramarse por completo para cada una.

Robótica: escala de madurez real

En robótica, "avance" puede significar cosas muy distintas. Esta escala permite comparar sistemas con honestidad: no es lo mismo una demo controlada que un despliegue documentado en entorno real.

Menor madurez Mayor madurez

Demo controlada

Demostración impresionante en condiciones diseñadas para el sistema. El entorno está calibrado, los objetos son conocidos y las condiciones de fallo están evitadas.

Vídeos de robótica en entornos de laboratorio Generalización "zero-shot" en objetos muy similares a los de entrenamiento

Benchmark / entorno semi-estructurado

El sistema supera pruebas estándar o funciona en entornos parcialmente controlados. Los resultados son reproducibles pero en condiciones favorables para el sistema.

RT-2 (Google), multitarea en laboratorio OpenVLA, benchmarks de manipulación Spot (Boston Dynamics), inspección industrial

Piloto industrial

Funcionando en entorno real pero bajo supervisión activa. El sistema realiza tareas útiles; los errores están documentados y mitigados por operadores humanos.

Optimus (Tesla), pilotos internos en fábrica Figure 02, pruebas con BMW Physical Intelligence (π), cocina / almacén

Despliegue documentado

Operación continua en entorno real no controlado. Métricas de rendimiento, tasa de fallos y cobertura publicadas o verificables independientemente.

Líneas de montaje industrial en producción Robots de almacén Amazon (entornos dedicados)

Por qué importa esta distinción

La mayoría de los titulares sobre robótica de IA corresponden al peldaño 1 o 2. Llegar al 3 o 4 requiere resolver problemas de fiabilidad, seguridad y coste que no aparecen en demos. El salto entre peldaños es donde están los retos reales del campo.

6. Lo que esta nueva fase está intentando resolver¶

Visto en conjunto, el movimiento es claro. El escalado del Transformer produjo sistemas muy potentes, pero también dejó visibles varios límites: memoria corta en relación con tareas de larga duración, poca adaptación interna durante la inferencia, planificación todavía débil en ciertos dominios y comprensión incompleta del mundo físico.

Las líneas que hoy parecen más prometedoras intentan atacar precisamente esos puntos:

Búsqueda y verificación sobre espacios de soluciones,
Memoria selectiva durante la inferencia,
Aprendizaje continuo en múltiples escalas temporales,
Modelos internos del entorno,
Sistemas capaces de percibir y actuar en el mundo físico.

No sabemos todavía qué combinación acabará imponiéndose. Lo que sí parece claro es que el futuro de la IA no se juega solo en modelos más grandes, sino en sistemas mejor organizados y más capaces de interactuar con el mundo.

Siguiente serie

Este capítulo cierra la historia de cómo llegamos hasta aquí. La siguiente serie entra en uno de los frentes más activos del presente: Multimodalidad en IA Generativa →

7. Referencias¶

**Fuentes base**

Clave	Fuente	Descripción breve
R1	Silver et al. (2016) — AlphaGo	Redes, búsqueda en árbol y RL en Go.
R2	Silver et al. (2017) — AlphaZero	Generalización del enfoque de self-play y búsqueda; enviado en diciembre de 2017.
R3	Yao et al. (2022) — ReAct	Integración de razonamiento y acción con herramientas en LLMs.
R4	DeepMind (2024) — AlphaProof y AlphaGeometry 2	Anuncio de julio de 2024: nivel plata en la IMO mediante búsqueda, RL y formalización matemática.
R5	DeepMind (2025) — AlphaEvolve	Anuncio de mayo de 2025: agente para descubrimiento y optimización algorítmica.
R6	DeepMind (2026) — 10 years of AlphaGo	Retrospectiva de marzo de 2026 que conecta AlphaGo, AlphaZero, AlphaProof y AlphaEvolve como una misma línea de búsqueda y planificación.
R7	Gu & Dao (2023) — Mamba	State space models selectivos y secuencias largas.
R8	Dao & Gu (2024) — Transformers are SSMs	Mamba-2 y dualidad entre atención y SSM.
R9	Behrouz, Zhong & Mirrokni (2025) — Titans	Memoria neuronal de largo plazo durante inferencia.
R10	Google Research (2025) — Titans + MIRAS	Test-time memorization y memoria a largo plazo.
R11	Google Research (2025) — Nested Learning	Paradigma multinivel para aprendizaje continuo.
R12	Hafner et al. (2023) — DreamerV3	World models para control general.
R13	Hafner et al. (2025) — Mastering diverse control tasks through world models	Publicación en Nature de DreamerV3.
R14	Assran et al. (2023) — I-JEPA	Predicción en espacio de representación.
R15	DeepMind (2024) — Genie 2	Mundo 3D jugable y controlable desde una imagen.
R16	Brohan et al. (2023) — RT-2	Modelos visión-lenguaje-acción en robótica.
R17	Figure (2025) — Helix	VLA generalista para control de humanoides.
R18	Figure (2025) — Figure 02 en BMW	Métricas públicas de despliegue industrial.
R19	Reuters (2024) — BMW y Figure	Acuerdo inicial de despliegue con BMW.
R20	Tesla — AI & Robotics	Posicionamiento oficial de Optimus como humanoide generalista.
R21	Reuters (2024) — Tesla y Optimus para uso interno	Hoja de ruta pública de Tesla para Optimus.
R22	NVIDIA (2024) — Project GR00T	Modelo fundacional para robots humanoides.
R23	Reuters (2026) — financiación de AMI	Señal de capital hacia world models y razonamiento.
R24	Reuters (2026) — financiación de World Labs	Señal de capital hacia inteligencia espacial y 3D.
R25	OpenAI (2025) — Why Language Models Hallucinate	Tesis de que los objetivos estándar premian adivinar antes que abstenerse.
R26	Xu et al. (2024/2025) — Hallucination is Inevitable	Argumento teórico de inevitabilidad en LLMs generales.
R27	Kadavath et al. (2022) — Language Models (Mostly) Know What They Know	Calibración y autoevaluación de modelos.
R28	Kapoor et al. (2024) — Large Language Models Must Be Taught to Know What They Don’t Know	La calibración útil no aparece sola; necesita entrenamiento explícito.
R29	Madhusudhan et al. (2025) — Do LLMs Know When to NOT Answer?	Abstención como dimensión clave de fiabilidad.
R30	Dhuliawala et al. (2024) — Chain-of-Verification	Verificación interna para reducir alucinaciones.
R31	Farquhar et al. (2024) — Detecting hallucinations in large language models using semantic entropy	Detección de alucinaciones mediante incertidumbre.