Saltar a contenido

Capítulo 5: Más allá del Transformer (≈ 2022 - Q1 2026)

⏱️ Tiempo de lectura: 10 min

Actualización

Este capítulo cubre el estado del campo hasta Q1 2026. Los apartados sobre modelos concretos, capital invertido y benchmarks están sujetos a cambio rápido, los apartados sobre limitaciones estructurales del Transformer son estables.

Este capítulo no llega después del anterior solo en sentido cronológico. Llega después en sentido conceptual. El escalado del Transformer sigue siendo una fuerza central, pero ya no basta por sí solo para describir hacia dónde se mueve la frontera.

Durante los últimos años han ido apareciendo varias intuiciones nuevas. Algunas intentan resolver límites prácticos del propio Transformer, como el coste de contexto largo y la memoria. Otras amplían el tipo de sistema que construimos: modelos que usan herramientas, buscan activamente soluciones, aprenden durante la inferencia o intentan construir representaciones internas del mundo en lugar de limitarse a predecir la siguiente pieza de texto.

Este capítulo recorre esa nueva fase.


1. Por qué el Transformer ya no basta como mapa completo

El Transformer reorganizó el campo porque era paralelizable, escalable y extremadamente general. Pero precisamente al escalarlo empezaron a hacerse visibles varios límites.

El primero es computacional. La atención estándar crece de forma costosa con la longitud del contexto, y eso convierte la memoria larga en un problema de hardware y eficiencia.

El segundo es funcional. Un Transformer preentrenado sabe muchísimo, pero sus pesos suelen quedar fijos en inferencia. Puede usar el contexto inmediato, pero no incorpora con naturalidad una memoria viva y persistente que aprende mientras trabaja.

El tercero es estructural. Predecir bien la siguiente pieza de una secuencia no equivale necesariamente a planificar, buscar activamente una solución, manipular herramientas externas o construir un modelo causal del entorno.

Por eso la frontera actual no consiste solo en entrenar modelos más grandes. Consiste en combinar escala con memoria, búsqueda, herramientas y representación del mundo.

1.1 Verdad, incertidumbre y alucinación

Aquí aparece otro límite importante. Los LLMs generativos basados en predicción del siguiente token no están optimizados directamente para distinguir entre verdad, falsedad y desconocimiento. Están optimizados para producir continuaciones plausibles dadas unas distribuciones de entrenamiento y unas señales de recompensa. Cuando la información es insuficiente o el contexto está mal especificado, esa presión puede empujar al modelo a completar en lugar de abstenerse.

Por eso conviene ser cuidadosos con cómo se formula el problema. Hay argumentos serios para pensar que, en sistemas abiertos de propósito general, las alucinaciones no van a desaparecer por completo. La teoría reciente ha defendido que son inevitables para LLMs computables usados como resolvedores generales, y trabajos más aplicados sostienen que los procedimientos estándar de entrenamiento y evaluación premian adivinar antes que reconocer incertidumbre.

Dicho eso, también sería excesivo convertir esta idea en una condena absoluta del Transformer como arquitectura o afirmar que toda mitigación es superficial. Buena parte del problema depende del objetivo de entrenamiento, de la calibración, de la capacidad de abstención y del acceso a verificación externa. Recuperación, herramientas, verificación, detección de incertidumbre y políticas explícitas de no responder pueden reducir mucho las alucinaciones en dominios acotados. El enunciado más sólido, por tanto, no es que el problema vaya a desaparecer, sino que en sistemas generativos abiertos sigue siendo un límite estructural serio, aunque pueda amortiguarse de forma sustancial en productos bien diseñados.


2. Del siguiente token a la búsqueda sobre el espacio de soluciones

Una de las líneas más importantes de esta nueva fase consiste en volver a tomarse en serio algo que el auge de los LLMs había dejado un poco en segundo plano: la búsqueda.

En 2016, AlphaGo mostró que una red neuronal muy potente no bastaba por sí sola: el sistema combinaba redes, búsqueda en árbol y aprendizaje por refuerzo para navegar un espacio de juego inmenso. En 2017, AlphaZero generalizó ese enfoque a Go, ajedrez y shogi partiendo solo de las reglas del juego. La idea de fondo ya estaba ahí: en ciertos problemas, la inteligencia práctica no consiste solo en predecir bien una respuesta, sino en explorar activamente un espacio de posibilidades y evaluar trayectorias prometedoras.

Esa lógica reaparece más tarde en otros contextos. En 2022, ReAct mostró que incluso en agentes basados en lenguaje el rendimiento mejora cuando el sistema alterna razonamiento y acción, consulta herramientas externas, observa el resultado y usa esa información para decidir el paso siguiente. No es un descendiente directo de AlphaGo en sentido arquitectónico, pero sí participa del mismo giro más amplio: dejar atrás la idea de que un modelo útil se limita a producir una respuesta en un solo paso.

El agente como bucle, no como flecha
Un agente no percibe, piensa y actúa en línea recta. Verifica, actualiza su estado y vuelve a observar. La arquitectura es un bucle cerrado con objetivo al centro.
1 Observar 2 Planear 3 Ejecutar 4 Verificar 5 Memoria OBJETIVO 🎯 policy
👁
Observar
Percibe el entorno: mensajes, resultados de herramientas previas, estado del sistema, imágenes o documentos. Todo lo que cabe en la ventana de contexto actual.
textoimágenesresultados anterioresestado del entorno
🧠
Planear
Razona qué acción tomar dado el objetivo y lo observado. Puede descomponer tareas complejas en subpasos y seleccionar la herramienta adecuada antes de actuar.
chain-of-thoughtsubobjetivosselección de herramienta
Ejecutar
Lleva a cabo la acción: llamada a API, ejecución de código, búsqueda, generación de texto o interacción con el entorno físico o digital.
tool callscódigoAPIs externasescritura
Verificar
Evalúa el resultado. ¿Se logró lo esperado? ¿Hubo error? Si falla, el bucle se reinicia con información adicional. Esta etapa distingue un agente de un chatbot.
evaluación de resultadodetección de errordecisión de continuar
💾
Actualizar memoria
Guarda lo relevante antes de volver a observar. El contexto de ventana es temporal; la memoria externa persiste entre sesiones. Sin esta etapa, el agente repite errores.
contexto de ventanamemoria vectorialhistorial de pasos

La línea de DeepMind sí puede contarse ya de forma continua. En julio de 2024, AlphaProof y AlphaGeometry 2 mostraron que una combinación de modelos de lenguaje, búsqueda y aprendizaje por refuerzo podía alcanzar nivel de medalla de plata en la Olimpiada Internacional de Matemáticas. En mayo de 2025, AlphaEvolve llevó esa idea al descubrimiento algorítmico: modelos Gemini, evaluadores automáticos y un marco evolutivo trabajando juntos para mejorar código y encontrar algoritmos nuevos. Ese mismo año, en la evaluación oficial de la IMO 2025, Gemini Deep Think alcanzó nivel de medalla de oro, consolidando la idea de que la combinación de modelo base, búsqueda activa y verificación formal puede superar el umbral de los mejores competidores humanos en matemáticas olímpicas.

La retrospectiva de DeepMind publicada en marzo de 2026 sobre los diez años de AlphaGo hace explícita esta genealogía. Allí presenta tanto AlphaProof como AlphaEvolve como continuaciones de la misma intuición que hizo potente a AlphaGo y AlphaZero: combinar modelos capaces con búsqueda, verificación y planificación para recorrer espacios enormes donde responder bien una sola vez no basta.

Lo que empieza a aparecer aquí es un cambio de unidad básica. El sistema útil ya no es solo el modelo, sino el modelo más búsqueda, más herramientas y más evaluación.

Del siguiente token a la búsqueda sobre el espacio de soluciones
PREDICCIÓN DIRECTA
Problema Modelo predicción directa Respuesta
Un camino — sin explorar alternativas
CON BÚSQUEDA
Problema Modelo genera candidatos candidato mejor ★ candidato
Explorar · evaluar · seleccionar la mejor trayectoria
En ciertos problemas, la inteligencia práctica no consiste en predecir bien una respuesta una vez, sino en explorar activamente un espacio de posibilidades y evaluar trayectorias prometedoras.
2016
AlphaGo
Redes neuronales + búsqueda en árbol + RL → primer sistema en derrotar a un campeón mundial en Go
2017
AlphaZero
Solo las reglas del juego, sin datos humanos → domina Go, ajedrez y shogi mediante self-play y búsqueda
2022
ReAct
LLMs que alternan razonamiento y acción, consultan herramientas y observan resultados antes de decidir el paso siguiente
2024
AlphaProof
LLM + búsqueda + RL formal → medalla de plata en la Olimpiada Internacional de Matemáticas
2025
AlphaEvolve
Modelos Gemini + evaluadores automáticos + marco evolutivo → descubrimiento y mejora de algoritmos matemáticos
La intuición central de AlphaGo reaparece nueve años después en matemáticas y código: combinar modelos capaces con búsqueda, verificación y planificación para recorrer espacios enormes.

3. Memoria más allá de la ventana de contexto

Otra frontera clara es la memoria. Los LLMs han ampliado mucho su contexto, pero una ventana larga no es lo mismo que una memoria persistente y selectiva.

Tres tipos de memoria, tres lógicas distintas
Ventana larga ≠ memoria viva ≠ aprendizaje permanente. Confundirlos lleva a expectativas incorrectas sobre qué puede recordar un agente y cuándo.
1
Contexto inmediato
Lo que está activo en la ventana ahora mismo
instrucción del sistema
historial de conversación
documentos adjuntos
consulta actual
Ventana de contexto (ej: 128K tokens)
Acceso instantáneo y sin latencia
Se borra al terminar la sesión
Coste computacional crece con el tamaño
El modelo "ve" todo lo que hay en la ventana, pero no lo aprende ni lo retiene.
2
Memoria externa
Lo que se recupera de fuera en tiempo de uso
🗄
Base vectorial / RAG
búsqueda por similitud
📄
fragmentos recuperados → ventana
Persiste entre sesiones
Escala a millones de documentos
Solo accesible si se recupera activamente
El modelo no "recuerda" documentos; los consulta cuando se los acercan. La recuperación puede fallar.
3
Memoria paramétrica
Lo que el modelo incorporó durante el entrenamiento
Pesos del modelo (fijos en inferencia)
Siempre disponible, sin recuperación
Conocimiento comprimido del entrenamiento
Congelado: no aprende nada nuevo en uso
Sujeto a alucinaciones y corte de datos
Lo que el modelo "sabe" intrínsecamente. No puede actualizarse sin reentrenar.
El error más común
Ampliar la ventana de contexto no convierte el contexto inmediato en memoria persistente. Y recuperar documentos con RAG no equivale a que el modelo haya aprendido su contenido. Son tres mecanismos distintos con propiedades distintas.

3.1 Mamba y el regreso de los State Space Models

Los state space models (SSM) son una familia de arquitecturas con raíces en la teoría de control clásica: en lugar de calcular atención entre todos los pares de tokens del contexto, mantienen un vector de estado oculto compacto que se actualiza en cada paso de la secuencia, lo que les permite procesar secuencias largas con coste lineal en lugar del cuadrático que impone la atención estándar.

Mamba recuperó esa tradición con una idea clave: hacer que parte de sus parámetros dependan del input para mejorar la selección de información relevante y conseguir escalado lineal en longitud de secuencia. El punto no era solo acelerar. Era intentar conservar capacidad de razonamiento sobre secuencias largas sin pagar siempre el coste de atención completa.

Mamba-2 fue más lejos y mostró una relación matemática profunda entre atención y state space models, proponiendo una capa refinada más rápida y competitiva. El mensaje de fondo es importante: quizá no estemos ante una ruptura total con el Transformer, sino ante una familia más amplia de mecanismos de memoria y secuencia.

3.2 Titans, MIRAS y la memoria que aprende durante la inferencia

La línea de Google Research va todavía un paso más allá. Titans introduce una memoria neuronal a largo plazo que se actualiza mientras el modelo está funcionando. La idea central no es solo guardar más contexto, sino decidir qué merece consolidarse como memoria en función de su novedad o sorpresa.

Google presentó después Titans + MIRAS como una línea explícita hacia test-time memorization: sistemas que mantienen memoria útil durante la ejecución sin depender únicamente de reentrenamiento offline. Ahí aparece una intuición importante para la etapa actual: quizá aprender no deba quedar confinado al entrenamiento. Quizá parte del aprendizaje relevante ocurra también en uso.

3.3 Nested Learning

Esa misma dirección culmina, por ahora, en Nested Learning, presentado por Google Research en 2025 como un paradigma de aprendizaje continuo basado en problemas de optimización anidados con distintas frecuencias de actualización. La idea es reinterpretar arquitectura y optimización como partes de un mismo sistema multinivel.

No es todavía un nuevo estándar del campo. Pero sí señala algo importante: el futuro del aprendizaje puede depender menos de un único gran bucle de entrenamiento y más de varios niveles de adaptación con ritmos distintos, desde memoria inmediata hasta modificación interna más persistente.

Más allá del Transformer: tres problemas, tres respuestas
Mamba, Titans y enfoques de aprendizaje continuo atacan límites distintos del Transformer. No son sustitutos generales: son soluciones a problemas concretos.
LIMITACIÓN DEL TRANSFORMER
O(N²)
La autoatención tiene coste cuadrático. Al doblar el contexto, el cómputo se cuadruplica. Para secuencias largas (audio, genómica, documentos extensos), el Transformer es prohibitivamente caro.
IDEA NUEVA
SSM
Los State Space Models procesan tokens en un estado oculto compacto que se actualiza en cada paso. Coste lineal O(N). Mamba añade selectividad: el estado decide qué información retener en cada momento.
TRADEOFF
±
Eficiente en secuencias largas, pero el estado oculto es comprimido: puede perder dependencias a largo plazo que la atención completa captaría. Menos expresivo en tareas donde importa cada relación entre tokens.
LIMITACIÓN DEL TRANSFORMER
KV
La memoria del Transformer vive solo en la caché KV de la ventana activa. Fuera de la ventana, el modelo no recuerda nada. Ampliar la ventana es costoso y no resuelve la persistencia real entre sesiones.
IDEA NUEVA
∇W
Titans usa los propios pesos del modelo como memoria en inferencia. Una red secundaria aprende a comprimir y recuperar información relevante actualizando sus parámetros durante el uso, sin reentrenamiento completo.
TRADEOFF
±
Memoria persistente sin ventana grande, pero el aprendizaje en inferencia añade latencia. La memoria puede corromperse o sobrescribirse sin una gestión cuidadosa del olvido. Arquitectura más compleja de entrenar.
LIMITACIÓN DEL TRANSFORMER
✗∇
Los modelos actuales se entrenan una vez y se congelan. Aprender algo nuevo requiere reentrenar o hacer fine-tuning, que puede causar "olvido catastrófico": el modelo pierde conocimiento previo al adquirir nuevo.
IDEA NUEVA
CL
El aprendizaje continuo (Continual Learning) busca que el modelo incorpore conocimiento incremental sin olvidar lo anterior. Técnicas: regularización de pesos importantes, módulos expansibles, arquitecturas con memoria episódica.
TRADEOFF
±
Mitigar el olvido catastrófico es difícil: las soluciones actuales funcionan bien en dominios estrechos pero escalan con dificultad. El equilibrio estabilidad-plasticidad sigue siendo un problema abierto a escala.

4. Modelos del mundo: aprender estructura, no solo secuencias

Otra línea fuerte intenta ir más allá de la predicción del siguiente token y aprender representaciones internas de cómo evoluciona un entorno.

World models: simular antes de actuar
Un modelo secuencial predice el siguiente estado. Un world model simula varios futuros posibles antes de elegir qué hacer. La diferencia es la capacidad de anticipar, no solo de continuar.
MODELO SECUENCIAL
Predice el siguiente estado
siguiente estado
El modelo predice paso a paso. No puede evaluar consecuencias antes de actuar.
Solo continúa la secuencia. Sin simulación interna del entorno.
vs
WORLD MODEL
Simula varios futuros posibles
trayectoria elegida
El modelo simula colisión, rebote y alternativas antes de actuar. Elige la trayectoria con mejor resultado anticipado.
Anticipa dinámicas del entorno. Planifica antes de comprometerse con una acción.
🚫
IMPLICACIÓN 1 · PREVENCIÓN
Rechazar antes de actuar
Un world model puede descartar acciones que llevan a un estado indeseable antes de ejecutarlas. Un modelo secuencial solo puede aprender de lo que ya ocurrió.
🤖
IMPLICACIÓN 2 · AGENTES FÍSICOS
Necesario, no opcional
Para robótica, conducción autónoma o agentes en el mundo físico, simular consecuencias antes de actuar es una capacidad estructural, no un añadido.
🔬
ESTADO DEL ARTE · DEBATE ABIERTO
¿Arquitectura distinta o LLM?
DreamerV3 y los modelos JEPA de LeCun apuntan en esta dirección. El debate es si los LLMs ya contienen representaciones implícitas de world model o si hace falta una arquitectura distinta.

DreamerV3, y después su versión publicada en Nature, mostró que un world model puede aprender a imaginar futuros posibles y reutilizar esa capacidad para resolver más de 150 tareas con una sola configuración, incluyendo la recolección de diamantes en Minecraft desde cero. La clave no es solo el rendimiento, sino el tipo de enfoque: el sistema aprende un modelo latente del entorno y planifica dentro de él.

En paralelo, I-JEPA empuja una intuición distinta pero cercana. En vez de reconstruir todos los píxeles, propone predecir representaciones semánticas en un espacio latente. No es un world model completo en el sentido de Dreamer, pero sí pertenece a la misma familia de ideas que priorizan estructura sobre reconstrucción literal.

Genie 2 lleva esta dirección a un terreno especialmente sugerente: generar entornos 3D jugables y controlables a partir de una sola imagen de entrada. Todavía estamos en una fase temprana y demostrativa, pero la tesis ya es visible: si un sistema puede modelar dinámicas de mundo suficientemente bien, entonces puede servir no solo para responder preguntas, sino para entrenar agentes y explorar espacios de acción.

4.1 La tesis ya mueve capital

Esta idea ha dejado de ser solo una línea académica. En marzo de 2026, Reuters informó de que AMI, la startup de Yann LeCun, recaudó 1.030 millones de dólares para desarrollar sistemas centrados en razonamiento, planificación y modelado del mundo real. Un mes antes, Reuters informó de que World Labs de Fei-Fei Li levantó 1.000 millones para avanzar en “spatial intelligence”.

El dato no prueba que esa sea la vía ganadora. Pero sí muestra que una parte relevante del ecosistema cree que el siguiente salto no llegará solo por escalar lenguaje, sino por modelar mejor la estructura espacial, causal e interactiva del mundo.

Ya no estamos viendo apuestas de laboratorio que se midan en cientos de millones. Solo en 2026, OpenAI anunció \$110.000 millones de nueva inversión, Anthropic cerró \$30.000 millones y xAI otros \$20.000 millones. En paralelo, las grandes tecnológicas planean alrededor de \$635.000 millones de gasto de capital en IA solo en 2026.

La señal es difícil de ignorar: la frontera dejó de ser únicamente un problema de algoritmo. El dinero se está desplazando hacia cuatro cuellos de botella concretos: modelos, cómputo, energía y mundo físico porque entrenar mejor ya no basta.

Ahora también hay que desplegar, alimentar y dar percepción y acción espacial a esos sistemas en el mundo real.

La frontera ya no escala solo en el modelo
El capital ya no se concentra solo en los laboratorios fundacionales: se reparte entre modelos, cómputo e infraestructura, energía firme y robótica del mundo físico. La tesis implícita de 2025–26: el siguiente salto requiere sistema completo, no solo más parámetros.
🧠
Modelos
Razonamiento, multimodalidad y nuevas arquitecturas
$165B+ visibles en capital anunciado o captado
OpenAI$110B2026
Anthropic$30B2026
xAI$20B2026
Mistral, SSI, Thinking Machines y Cohere~$5B2024–26
Cómputo e infraestructura
Centros de datos, nubes especializadas y aceleración
$635B de gasto de capital en IA en 2026; $23B+ visibles en actores especializados
Grandes tecnológicas (estim.)$635B2026
CoreWeave$14.5B+acum.
Nebius$4.34B2026
Groq$2.1B+2024–25
Cerebras + SambaNova$2B+visibles
🔋
Energía para el cómputo
Nuclear avanzada y potencia firme para centros de datos
1.95 GW+ visibles; >5 GW de objetivo y $500M de financiación
Microsoft + Constellation835 MWPPA a 20 años
Google + Kairos Power500 MW2030–35
Amazon + X-energy$500Mfinanciación 2024
Amazon + Energy Northwest320 MWfase inicial
Amazon + Dominion300 MWVirginia
🤖
Robótica y mundo físico
Inteligencia encarnada, modelos espaciales y robots generalistas
$5.2B+ visibles (AMI, World Labs, Skild, Figure, Physical Intelligence, Apptronik, 1X)
AMI$1.03B2026
World Labs$1B2026
Skild AI$1.7B2024–26
Figure AI$675M2024
Physical Intelligence$400M2024
Apptronik + 1X$450M2024–25
La tesis que el capital señala
El cuello de botella ya no es solo algorítmico. La frontera depende de cómputo disponible, energía firme, capacidad física de despliegue y sistemas que puedan actuar fuera de la pantalla. El actor dominante no será solo quien entrene el mejor modelo, sino quien cierre mejor las cuatro capas a la vez.

5. Del modelo al cuerpo: robótica y acción física

Si la frontera se desplaza hacia sistemas que perciben, planifican y actúan, la robótica deja de ser una nota al pie y vuelve al centro del debate.

RT-2 mostró que un modelo visión-lenguaje-acción puede transferir parte del conocimiento adquirido en datos web a tareas de control robótico. El punto importante aquí no es solo que el robot ejecute movimientos, sino que aproveche representaciones más generales para interpretar instrucciones y generalizar mejor fuera del conjunto de entrenamiento estrictamente robótico.

Figure representa bien una de las apuestas más visibles de esta etapa. Primero, por su orientación comercial temprana: en 2024 anunció una alianza con BMW para desplegar robots humanoides en planta. Después, por su capa de inteligencia: Helix se presentó en 2025 como un modelo visión-lenguaje-acción generalista para control de humanoides, capaz de operar con el cuerpo superior completo y coordinar incluso dos robots en tareas compartidas. Y, ya a finales de 2025, la propia empresa publicó métricas de despliegue de Figure 02 en BMW, con horas acumuladas de operación, piezas manipuladas y contribución documentada a producción. Figure combina, por tanto, una narrativa clara de VLA generalista con despliegue industrial explícito.

Tesla representa una apuesta distinta. Su enfoque con Optimus es el de un humanoide generalista profundamente integrado con el resto de su stack de IA física, percepción, control y manufactura. La compañía lo presenta como un robot autónomo de propósito general para tareas inseguras, repetitivas o aburridas. A nivel público, sin embargo, la evidencia a Q1 2026 sigue siendo más programática que la de Figure: Reuters recogió en 2024 que Tesla aspiraba a usar Optimus internamente en baja escala en 2025 y a escalar después hacia clientes externos, pero esa ambición sigue siendo más una hoja de ruta corporativa que un despliegue industrial público tan documentado como el de Figure.

NVIDIA Project GR00T expresa la misma intuición desde otro ángulo: modelos fundacionales para robots humanoides, unidos a simulación, datos sintéticos, percepción y hardware específico.

Todavía no estamos ante robots generalistas fiables en cualquier entorno. Pero sí ante un cambio claro de enfoque. La robótica empieza a heredar la lógica de los modelos fundacionales: una misma base intenta transferirse a muchas tareas distintas en lugar de reprogramarse por completo para cada una.

Robótica: escala de madurez real
En robótica, "avance" puede significar cosas muy distintas. Esta escala permite comparar sistemas con honestidad: no es lo mismo una demo controlada que un despliegue documentado en entorno real.
Menor madurez Mayor madurez
Demo controlada
Demostración impresionante en condiciones diseñadas para el sistema. El entorno está calibrado, los objetos son conocidos y las condiciones de fallo están evitadas.
Vídeos de robótica en entornos de laboratorio Generalización "zero-shot" en objetos muy similares a los de entrenamiento
Benchmark / entorno semi-estructurado
El sistema supera pruebas estándar o funciona en entornos parcialmente controlados. Los resultados son reproducibles pero en condiciones favorables para el sistema.
RT-2 (Google), multitarea en laboratorio OpenVLA, benchmarks de manipulación Spot (Boston Dynamics), inspección industrial
Piloto industrial
Funcionando en entorno real pero bajo supervisión activa. El sistema realiza tareas útiles; los errores están documentados y mitigados por operadores humanos.
Optimus (Tesla), pilotos internos en fábrica Figure 02, pruebas con BMW Physical Intelligence (π), cocina / almacén
Despliegue documentado
Operación continua en entorno real no controlado. Métricas de rendimiento, tasa de fallos y cobertura publicadas o verificables independientemente.
Líneas de montaje industrial en producción Robots de almacén Amazon (entornos dedicados)
Por qué importa esta distinción
La mayoría de los titulares sobre robótica de IA corresponden al peldaño 1 o 2. Llegar al 3 o 4 requiere resolver problemas de fiabilidad, seguridad y coste que no aparecen en demos. El salto entre peldaños es donde están los retos reales del campo.

6. Lo que esta nueva fase está intentando resolver

Visto en conjunto, el movimiento es claro. El escalado del Transformer produjo sistemas muy potentes, pero también dejó visibles varios límites: memoria corta en relación con tareas de larga duración, poca adaptación interna durante la inferencia, planificación todavía débil en ciertos dominios y comprensión incompleta del mundo físico.

Las líneas que hoy parecen más prometedoras intentan atacar precisamente esos puntos:

  • Búsqueda y verificación sobre espacios de soluciones,
  • Memoria selectiva durante la inferencia,
  • Aprendizaje continuo en múltiples escalas temporales,
  • Modelos internos del entorno,
  • Sistemas capaces de percibir y actuar en el mundo físico.

No sabemos todavía qué combinación acabará imponiéndose. Lo que sí parece claro es que el futuro de la IA no se juega solo en modelos más grandes, sino en sistemas mejor organizados y más capaces de interactuar con el mundo.

Siguiente serie

Este capítulo cierra la historia de cómo llegamos hasta aquí. La siguiente serie entra en uno de los frentes más activos del presente: Multimodalidad en IA Generativa →


7. Referencias

**Fuentes base**
Clave Fuente Descripción breve
R1 Silver et al. (2016) — AlphaGo Redes, búsqueda en árbol y RL en Go.
R2 Silver et al. (2017) — AlphaZero Generalización del enfoque de self-play y búsqueda; enviado en diciembre de 2017.
R3 Yao et al. (2022) — ReAct Integración de razonamiento y acción con herramientas en LLMs.
R4 DeepMind (2024) — AlphaProof y AlphaGeometry 2 Anuncio de julio de 2024: nivel plata en la IMO mediante búsqueda, RL y formalización matemática.
R5 DeepMind (2025) — AlphaEvolve Anuncio de mayo de 2025: agente para descubrimiento y optimización algorítmica.
R6 DeepMind (2026) — 10 years of AlphaGo Retrospectiva de marzo de 2026 que conecta AlphaGo, AlphaZero, AlphaProof y AlphaEvolve como una misma línea de búsqueda y planificación.
R7 Gu & Dao (2023) — Mamba State space models selectivos y secuencias largas.
R8 Dao & Gu (2024) — Transformers are SSMs Mamba-2 y dualidad entre atención y SSM.
R9 Behrouz, Zhong & Mirrokni (2025) — Titans Memoria neuronal de largo plazo durante inferencia.
R10 Google Research (2025) — Titans + MIRAS Test-time memorization y memoria a largo plazo.
R11 Google Research (2025) — Nested Learning Paradigma multinivel para aprendizaje continuo.
R12 Hafner et al. (2023) — DreamerV3 World models para control general.
R13 Hafner et al. (2025) — Mastering diverse control tasks through world models Publicación en Nature de DreamerV3.
R14 Assran et al. (2023) — I-JEPA Predicción en espacio de representación.
R15 DeepMind (2024) — Genie 2 Mundo 3D jugable y controlable desde una imagen.
R16 Brohan et al. (2023) — RT-2 Modelos visión-lenguaje-acción en robótica.
R17 Figure (2025) — Helix VLA generalista para control de humanoides.
R18 Figure (2025) — Figure 02 en BMW Métricas públicas de despliegue industrial.
R19 Reuters (2024) — BMW y Figure Acuerdo inicial de despliegue con BMW.
R20 Tesla — AI & Robotics Posicionamiento oficial de Optimus como humanoide generalista.
R21 Reuters (2024) — Tesla y Optimus para uso interno Hoja de ruta pública de Tesla para Optimus.
R22 NVIDIA (2024) — Project GR00T Modelo fundacional para robots humanoides.
R23 Reuters (2026) — financiación de AMI Señal de capital hacia world models y razonamiento.
R24 Reuters (2026) — financiación de World Labs Señal de capital hacia inteligencia espacial y 3D.
R25 OpenAI (2025) — Why Language Models Hallucinate Tesis de que los objetivos estándar premian adivinar antes que abstenerse.
R26 Xu et al. (2024/2025) — Hallucination is Inevitable Argumento teórico de inevitabilidad en LLMs generales.
R27 Kadavath et al. (2022) — Language Models (Mostly) Know What They Know Calibración y autoevaluación de modelos.
R28 Kapoor et al. (2024) — Large Language Models Must Be Taught to Know What They Don’t Know La calibración útil no aparece sola; necesita entrenamiento explícito.
R29 Madhusudhan et al. (2025) — Do LLMs Know When to NOT Answer? Abstención como dimensión clave de fiabilidad.
R30 Dhuliawala et al. (2024) — Chain-of-Verification Verificación interna para reducir alucinaciones.
R31 Farquhar et al. (2024) — Detecting hallucinations in large language models using semantic entropy Detección de alucinaciones mediante incertidumbre.