El Transformer¶

El Transformer es la arquitectura de red neuronal que domina la IA generativa desde su publicación en 2017 en el paper "Attention Is All You Need" (Vaswani et al., Google Brain). Su innovación central es el mecanismo de auto-atención (self-attention): en lugar de procesar el texto de izquierda a derecha como hacían las redes recurrentes (RNN, LSTM), el Transformer calcula relaciones entre todos los tokens de una secuencia en paralelo. Eso resuelve dos problemas de una vez: permite entrenamiento eficiente en GPU (todo en paralelo) y evita el "olvido" de dependencias lejanas que limitaba a los modelos recurrentes. El resultado es una arquitectura que escala bien con datos y cómputo, que captura contexto a larga distancia y que sirve de base para prácticamente todos los LLMs y modelos multimodales actuales.

En qué series aparece¶

De las cavernas a la AGI

Los capítulos 3, 4 y 5 explican cómo surgió el Transformer, por qué escaló tan bien y qué arquitecturas están intentando superarlo o complementarlo.

Leer →

Multimodalidad en IA generativa

Los capítulos 2 y 3 muestran cómo el Transformer se adapta para procesar imágenes (Vision Transformer, ViT) y cómo se alinean modalidades en una arquitectura compartida.

Leer →

Preguntas frecuentes¶

¿Qué hace diferente al Transformer? Lo diferente es el mecanismo de atención, que calcula la relevancia de cada token respecto a todos los demás de la secuencia en un solo paso matricial. Las RNN procesaban el texto en orden y comprimían el contexto pasado en un vector de estado fijo, lo que creaba un cuello de botella. El Transformer accede a cualquier parte de la secuencia directamente, lo que mejora tanto la calidad como la velocidad de entrenamiento.

¿Qué es la atención (self-attention)? La auto-atención es el mecanismo por el que cada token de la secuencia "consulta" a todos los demás para decidir cuánta importancia darles al calcular su propia representación. Se implementa como tres matrices (Query, Key, Value): la similitud entre Query y Key determina cuánto peso recibe cada Value en la representación final. Ejecutado en paralelo sobre toda la secuencia, permite capturar dependencias de larga distancia sin procesar el texto de forma secuencial.

¿Todos los LLMs usan Transformer? Casi todos los LLMs de uso masivo hasta 2025 son Transformers o variantes directas (arquitecturas decoder-only como GPT, encoder-decoder como T5). Existen alternativas como Mamba (basada en State Space Models) o Hyena, que intentan superar el coste cuadrático de la atención, pero ninguna ha desplazado al Transformer en el uso general.

¿Cuáles son los límites del Transformer? El principal límite es el coste cuadrático de la atención respecto a la longitud de la secuencia: doblar el contexto cuadruplica el cómputo de atención. Eso hace costoso procesar documentos muy largos o contextos de millones de tokens. Otros límites incluyen la dificultad con razonamiento formal preciso (requiere técnicas adicionales como cadena de pensamiento) y la necesidad de grandes volúmenes de datos para el preentrenamiento.

¿Qué hay más allá del Transformer? Las líneas más activas son los State Space Models (Mamba, S4), que prometen coste lineal en la longitud de secuencia, y los modelos híbridos que combinan atención con SSM para conservar las ventajas de ambos. Ninguna arquitectura ha demostrado superar al Transformer a escala comparable en todos los benchmarks, pero la investigación en este frente es intensa.