Los tres capítulos anteriores dejaron preparadas las piezas necesarias: representar el mundo con símbolos, mecanizar procedimientos y aprender a partir de datos. A partir de 2012, esas piezas dejaron de avanzar por separado. Datos, cómputo, optimización y arquitectura empezaron a reforzarse mutuamente a una escala inédita.
Este capítulo recorre ese cambio de régimen. No trata solo del auge del deep learning. Trata del momento en que el progreso empezó a depender cada vez más de una combinación sistemática de escala, reutilización y transferencia, hasta producir modelos que ya no resolvían una sola tarea, sino familias enteras de tareas.
AlexNet ganó ILSVRC 2012 con un resultado que cambió la percepción del campo: 15,3% de error top-5 frente al 26,2% del segundo clasificado. El sistema se entrenó sobre 1,2 millones de imágenes usando dos GPUs GTX 580 durante 6 días, combinando una red más profunda de lo habitual con ReLU, dropout, aumento de datos y una implementación eficiente en GPU.
Lo importante es entender bien qué demostró ese resultado. AlexNet no inventó de cero las redes convolucionales ni formuló por sí sola unas leyes de escala ya establecidas. Lo que sí mostró con claridad fue que, cuando profundidad, datos, regularización y cómputo alcanzan suficiente masa crítica, el rendimiento puede mejorar de una forma que ya no parece un simple refinamiento incremental.
La lección de 2012 tampoco fue que la arquitectura dejara de importar. Fue más bien que una arquitectura buena puede permanecer durante años por debajo de su potencial y despegar de pronto cuando el hardware y el volumen de datos dejan de ser el cuello de botella.
2012 cambia el régimen
El salto de AlexNet no fue incremental. Fue una ruptura: más datos, más cómputo y GPU como motor de entrenamiento rompieron la trayectoria de mejora lenta que llevaba décadas estancada.
Antes del salto, el error en ImageNet mejoraba despacio. AlexNet lo redujo casi a la mitad en un año.
Error top-5 en ImageNet
Mejor 2010
28,2%
Mejor 2011
25,8%
AlexNet 2012
15,3%
GoogLeNet 2014
6,7%
Nivel humano ref.
~5%
Eje: % error top-5 en ImageNet. Menos es mejor. AlexNet redujo el error en ~10 puntos de golpe, después de años de mejoras de 1-2 puntos.
Tres piezas convergieron al mismo tiempo. Ninguna sola habría sido suficiente.
DATOS
1.2M
ImageNet: 1,2 millones de imágenes etiquetadas. La escala de datos de entrenamiento era incomparablemente mayor que lo disponible en años anteriores.
CÓMPUTO
GPU
Dos GPUs GTX 580. Las GPUs paralelizaban miles de operaciones simultáneas, convirtiendo semanas de CPU en días de entrenamiento.
ARQUITECTURA
CNN
Red convolucional profunda con ReLU, dropout y max-pooling. Cada capa aprendía representaciones más abstractas que la anterior.
El mensaje no fue "AlexNet ganó ImageNet". Fue "más datos + más cómputo + mejores representaciones produce mejoras predecibles".
ANTES
Visión artificial = ingeniería manual de características (SIFT, HOG, LBP…). Cada dominio requería expertos distintos.
→
DESPUÉS
La red aprende las características por sí sola desde datos crudos. El mismo paradigma funciona en visión, audio, texto y más.
El cambio de régimen no fue técnico: fue epistemológico. Los datos y el cómputo pasaron a ser las palancas dominantes.
El siguiente gran giro llegó con Attention Is All You Need en 2017. El Transformer no fue simplemente otra arquitectura para lenguaje. Reorganizó el problema alrededor de mecanismos de atención, eliminando la recurrencia del núcleo del modelo y haciendo el entrenamiento mucho más paralelizable.
A partir de ahí se abrieron dos trayectorias especialmente influyentes. Por un lado, BERT mostró la fuerza del preentrenamiento bidireccional y del fine-tuning posterior sobre tareas concretas. Por otro, GPT-2 y después GPT-3 enseñaron que un modelo autoregresivo suficientemente grande podía transferirse a tareas nuevas directamente desde el contexto, primero de forma llamativa en zero-shot y después con capacidades mucho más sólidas de few-shot e in-context learning.
La atención desbloquea reutilización
El Transformer no solo fue más preciso. Fue la primera arquitectura que permitía entrenar una base general y reutilizarla en decenas de tareas distintas sin reentrenar desde cero.
Las RNNs procesaban tokens en secuencia. Eso impedía paralelizar y limitaba cuánto contexto podía integrar el modelo a la vez.
ANTES · RNN/LSTM
t₁
→
t₂
→
t₃
→
t₄
Secuencial. El token 4 no ve el 1 directamente. Contexto largo = degradación de gradiente.
DESPUÉS · Transformer
t₁
t₂
t₃
t₄
Cada token atiende a todos los demás a la vez. Paralelizable. Contexto completo sin degradación.
La autoatención permite que cualquier token consulte directamente a cualquier otro. El modelo aprende qué relaciones importan, sin instrucciones explícitas.
1
Preentrenamiento a escala
Miles de millones de tokens. El objetivo es simple: predecir el siguiente. La red aprende la estructura del lenguaje y del mundo como efecto secundario.
2
Representaciones transferibles
Cada capa codifica patrones de distinto nivel de abstracción. Esas representaciones no son específicas de una tarea: son generales.
3
Reutilización downstream
La misma base sirve para traducción, resumen, código, análisis de imágenes y más. El coste del preentrenamiento se amortiza en cada uso.
Una sola inversión en preentrenamiento se convierte en la base de muchas aplicaciones distintas. Cada downstream cuesta una fracción del original.
PREENTRENAMIENTO
$10M – $100M
Modelo base
Una inversión única. Aprendizaje general del lenguaje, el código y el mundo.
ADAPTACIÓN
Asistente conversacional
$1K – $100K
ADAPTACIÓN
Asistente de código
$1K – $100K
ADAPTACIÓN
Medicina / Legal / Ciencia
$1K – $100K
ADAPTACIÓN
Visión + lenguaje
$1K – $100K
Lo decisivo no fue solo rendir más en un benchmark. Fue cambiar la lógica económica del desarrollo de IA: una base, muchas aplicaciones.
Ese cambio alteró la lógica del progreso. Durante mucho tiempo, cada tarea importante exigía su propio modelo, su propio pipeline y sus propios datos anotados. Con el preentrenamiento a gran escala empezó a resultar más eficaz entrenar una base general y después adaptarla, afinarla o condicionarla para usos concretos.
La misma familia de ideas se extendió además fuera del texto. Vision Transformer llevó el paradigma a visión. CLIP alineó imagen y lenguaje a gran escala. DALL·E y los latent diffusion models mostraron nuevas formas de generar imágenes a partir de lenguaje. Y sistemas multimodales posteriores, como Gemini 1.5, reforzaron la idea de un modelo capaz de trabajar con texto, imagen, audio y vídeo dentro de un mismo sistema.
La escala sale del laboratorio y entra en producto
GPT-3 demostró que la escala funcionaba. ChatGPT demostró que la escala podía llegar a cien millones de personas. El paso entre ambos no fue más cómputo: fue alineamiento.
175 mil millones de parámetros. La escala reveló capacidades que no existían en modelos menores: traducción, resumen, código, razonamiento simple, sin fine-tuning específico.
PARÁMETROS
175B
×1.590 respecto a GPT-2 en 2 años
TOKENS DE ENTRENAMIENTO
300B
CommonCrawl, libros, Wikipedia, código
ACCESO
API
Solo investigadores y empresas seleccionadas
GPT-3 era impresionante pero inestable. Sus respuestas dependían mucho de cómo se formulaba la instrucción. No era usable por el público general.
Entre un buen modelo base y un buen asistente hay un abismo. El alineamiento fue la pieza que faltaba: enseñar al modelo qué respuesta prefieren los humanos, no solo qué respuesta es probable.
MODELO BASE
Predictor de texto
Completa secuencias con alta probabilidad. No distingue entre respuestas útiles, dañinas o simplemente raras.
"¿Cómo hago X?" → continúa con probabilidades de lenguaje, puede generar cualquier cosa plausible
RLHF
Reinforcement Learning from Human Feedback
MODELO ALINEADO
Asistente
Aprende las preferencias humanas a través de comparaciones. Sigue instrucciones, evita respuestas dañinas, mantiene el formato conversacional.
"¿Cómo hago X?" → respuesta estructurada, segura, en el tono adecuado
ChatGPT no fue el modelo más potente de su momento. Fue el primero que cualquier persona podía usar de forma natural. La velocidad de adopción no tuvo precedentes.
Tiempo en alcanzar 100 millones de usuarios activos
Netflix
3,5 años
Instagram
2,5 años
TikTok
9 meses
ChatGPT
2 meses
Fuente: UBS/Similarweb citado por Reuters, enero 2023. La métrica exacta varía según la fuente, pero el orden de magnitud es indiscutible.
La escala dejó de ser un resultado en un paper. Se convirtió en una interfaz pública.
Antes de las leyes de escala, nadie sabía si doblar el compute produciría un modelo mejor. Las leyes de escala dijeron que sí, y exactamente cuánto mejor: la mejora sigue una curva de potencia consistente en parámetros, datos y cómputo.
ANTES · 2019
"¿Vale la pena invertir 10× más compute?"
Desconocido. Se probaba y se veía.
→
DESPUÉS · Kaplan et al. 2020
"¿Vale la pena invertir 10× más compute?"
Sí. La pérdida baja en un factor predecible. Puedes planificarlo antes de entrenar.
Explora qué cambia al escalar
Escala pequeña
Pérdida: ~3.5–4.0
Pregunta: ¿Cuál es la capital de Francia?
Respuesta del modelo: "Francia es un país. Los países tienen capitales. Una capital es una ciudad. Ciudades como Londres son capitales."
Incoherente · no responde
Tarea: Traduce "Hello" al español
Respuesta del modelo: "Hola. Es una palabra. Saludar es importante. Las palabras cambian entre idiomas."
No sigue la instrucción
Escala media
Pérdida: ~2.5–3.0
Pregunta: ¿Cuál es la capital de Francia?
Respuesta del modelo: "La capital de Francia es París, una ciudad importante en Europa."
Correcto · responde a la instrucción
Tarea: Escribe código Python que sume dos números
Respuesta del modelo: "def suma(a, b): resultado = a + b. return resultado si a es mayor que b."
Código parcial · errores de sintaxis
Escala grande
Pérdida: ~1.8–2.2
Tarea: Explica por qué los aviones vuelan en términos simples
Respuesta del modelo: "Los aviones vuelan porque las alas están diseñadas para que el aire pase más rápido por encima que por debajo, creando una diferencia de presión que genera sustentación hacia arriba."
Explicación correcta y clara
Tarea: Escribe una función que invierta una cadena en Python
Respuesta del modelo: "def invertir(s): return s[::-1]"
Código correcto y eficiente
Frontera actual
Pérdida: ~1.2–1.5
Tarea: Razona paso a paso: si María tiene 3 hermanos y cada hermano tiene 2 hijos, ¿cuántos sobrinos tiene María?
Respuesta del modelo: "Cada uno de los 3 hermanos tiene 2 hijos, por lo que el número total de hijos de los hermanos es 3 × 2 = 6. Todos esos niños son sobrinos de María. María tiene 6 sobrinos."
Razonamiento multi-paso correcto
Tarea: Escribe un test unitario para la función invertir(s) anterior
L(x) ~ x−α El exponente α varía según qué escales: parámetros (≈0.076), datos (≈0.095), cómputo (≈0.050). Ajuste empírico, no ley universal. Las leyes predicen pérdida promedio, no qué capacidades concretas aparecerán al escalar.
Eso no significa que la escala lo explique todo. Significa que, una vez que una arquitectura y un objetivo de entrenamiento son suficientemente buenos, aumentar recursos deja de ser una cuestión secundaria y pasa a formar parte de la teoría práctica del sistema.
En este punto conviene introducir una cautela importante. La literatura sobre capacidades emergentes ha sido influyente porque describe saltos bruscos de rendimiento en ciertas tareas cuando el modelo supera determinados tamaños. Pero trabajos posteriores, como Are Emergent Abilities of Large Language Models a Mirage?, sostienen que parte de esa brusquedad puede depender de la métrica elegida o del modo de evaluar. Lo más prudente, por tanto, no es afirmar que toda capacidad nueva emerge de forma misteriosa, sino reconocer que la escala ha traído capacidades nuevas o mucho más robustas mientras la interpretación fuerte de esa emergencia sigue abierta.
¿Emergencia real o artefacto de medición?
Algunas capacidades parecen aparecer de golpe cuando un modelo alcanza cierto tamaño. Pero si ese umbral brusco es real o depende de cómo medimos es una pregunta abierta con consecuencias importantes.
Una tarea concreta a distintas escalas
Pregunta: "¿Cuántas r hay en la palabra strawberry?"
~1B parámetros
"La palabra strawberry tiene 2 letras r."
✗ Incorrecto
El modelo no cuenta caracteres; predice la respuesta más probable por distribución de texto.
~7B parámetros
"Strawberry tiene 3 letras r: s-t-r-a-w-b-e-r-r-y."
△ Correcto, pero sin trazabilidad clara
El modelo acierta el conteo, pero la respuesta no evidencia de forma sólida que esté operando sobre posiciones de caracteres.
~70B parámetros
"Hay 3 letras r en strawberry: en la posición 3, 8 y 9."
✓ Correcto con razonamiento
A esta escala aparece la capacidad de razonar sobre la estructura interna de palabras.
El debate: ¿cómo lees esa mejora?
Lectura fuerte · Wei et al. 2022
Emergencia real: la capacidad no existe por debajo del umbral y aparece de golpe
Rendimiento en la tarea
1B
7B
13B
70B
175B
Métrica: correcto / incorrecto (binario)
Con métrica binaria (correcto o no), el salto parece abrupto. El modelo "no puede" y de repente "puede".
Implicación: hay umbrales reales de capacidad que no se pueden extrapolar desde escalas menores.
Lectura cauta · Schaeffer et al. 2023
Artefacto de métrica: la mejora es gradual pero la métrica binaria la hace parecer brusca
Rendimiento en la tarea
1B
7B
13B
70B
175B
Métrica: crédito parcial (cuántas r detecta correctamente)
Con crédito parcial, el progreso es continuo. El modelo mejora en cada escala, aunque no llega al 100% hasta escalas grandes.
Implicación: no hay "magia" en los umbrales grandes. La emergencia puede ser un artefacto de elegir métricas que no capturan mejoras parciales.
4. Modelos fundacionales: la misma base para muchas tareas¶
A partir de ahí aparece el marco de los modelos fundacionales. La idea central no es solo que un modelo sea grande, sino que se entrene sobre datos amplios, generalmente mediante auto-supervisión a escala, y después pueda adaptarse a una gran variedad de tareas posteriores.
Este cambio tiene una consecuencia técnica y económica enorme. El mismo modelo base puede servir como infraestructura reutilizable para redactar, resumir, traducir, clasificar, extraer información, generar código, recuperar conocimiento y trabajar en varias modalidades con ajustes relativamente pequeños en comparación con entrenar un sistema nuevo para cada tarea.
Aquí está el giro profundo de este periodo. Durante décadas, la IA avanzó como una colección de sistemas especializados. Con los modelos fundacionales, el centro de gravedad se desplazó hacia bases generales preentrenadas que luego se adaptan, se alinean o se encadenan para usos concretos.
Del dato en bruto al producto: tres etapas
Un modelo fundacional no es un producto terminado. Entre el preentrenamiento y el uso real hay dos etapas más, cada una con su propia lógica, su coste y sus limitaciones.
$10M – $100M · semanas de cómputo
Objetivo: predecir el token siguiente
Entra
📚 Libros
🌐 Web
💻 Código
📰 Artículos
Sale
🧠
Modelo base
Billones de parámetros. Conocimiento general del lenguaje y del mundo. Potente pero no instruccionable de forma confiable.
$100K – $10M · interacción humana
Objetivo: seguir instrucciones y evitar daños
Entra
👤 Instrucciones humanas
⚖ Preferencias comparadas
🔄 RLHF / DPO
Sale
🤝
Modelo alineado
Sigue instrucciones, mantiene tono, evita respuestas dañinas. Listo para interacción humana directa.
Variable · por llamada o despliegue
El modelo alineado orquestado con contexto y herramientas
Entra en tiempo de uso
🔧 Herramientas externas
📄 Documentos / RAG
🧩 Memoria temporal
🎯 Instrucción de sistema
Sale
🚀
Producto
El modelo alineado orquestado con contexto, herramientas y memoria. Esto es lo que el usuario experimenta.
Al llegar a 2024, el campo ya había cambiado de forma estructural. La IA dejó de pensarse principalmente como un conjunto de soluciones aisladas y empezó a organizarse alrededor de modelos base cada vez más grandes, reutilizables y multimodales.
Ese cambio deja preparado el terreno de la siguiente etapa. La escala ya no se entiende solo como una cuestión de más parámetros o más datos, sino como la base sobre la que empiezan a aparecer problemas nuevos: memoria más eficaz, mejor uso de herramientas, búsqueda más activa y una relación más rica con el mundo fuera del texto.
Siguiente capítulo
Capítulo 5 — Más allá del Transformer → — Qué límites dejó visibles el escalado puro y las líneas que el campo está abriendo: memoria durante la inferencia, búsqueda activa, modelos del mundo y robótica.