Capítulo 4: Escalar (≈ 2012 - 2024)¶

⏱️ Tiempo de lectura: 5 min

Los tres capítulos anteriores dejaron preparadas las piezas necesarias: representar el mundo con símbolos, mecanizar procedimientos y aprender a partir de datos. A partir de 2012, esas piezas dejaron de avanzar por separado. Datos, cómputo, optimización y arquitectura empezaron a reforzarse mutuamente a una escala inédita.

Este capítulo recorre ese cambio de régimen. No trata solo del auge del deep learning. Trata del momento en que el progreso empezó a depender cada vez más de una combinación sistemática de escala, reutilización y transferencia, hasta producir modelos que ya no resolvían una sola tarea, sino familias enteras de tareas.

1. 2012: cuando la escala dejó de ser un detalle¶

AlexNet ganó ILSVRC 2012 con un resultado que cambió la percepción del campo: 15,3% de error top-5 frente al 26,2% del segundo clasificado. El sistema se entrenó sobre 1,2 millones de imágenes usando dos GPUs GTX 580 durante 6 días, combinando una red más profunda de lo habitual con ReLU, dropout, aumento de datos y una implementación eficiente en GPU.

Lo importante es entender bien qué demostró ese resultado. AlexNet no inventó de cero las redes convolucionales ni formuló por sí sola unas leyes de escala ya establecidas. Lo que sí mostró con claridad fue que, cuando profundidad, datos, regularización y cómputo alcanzan suficiente masa crítica, el rendimiento puede mejorar de una forma que ya no parece un simple refinamiento incremental.

La lección de 2012 tampoco fue que la arquitectura dejara de importar. Fue más bien que una arquitectura buena puede permanecer durante años por debajo de su potencial y despegar de pronto cuando el hardware y el volumen de datos dejan de ser el cuello de botella.

2012 cambia el régimen

El salto de AlexNet no fue incremental. Fue una ruptura: más datos, más cómputo y GPU como motor de entrenamiento rompieron la trayectoria de mejora lenta que llevaba décadas estancada.

Antes del salto, el error en ImageNet mejoraba despacio. AlexNet lo redujo casi a la mitad en un año.

Error top-5 en ImageNet

Mejor 2010

28,2%

Mejor 2011

25,8%

AlexNet 2012

15,3%

GoogLeNet 2014

6,7%

Nivel humano ref.

~5%

Eje: % error top-5 en ImageNet. Menos es mejor. AlexNet redujo el error en ~10 puntos de golpe, después de años de mejoras de 1-2 puntos.

Tres piezas convergieron al mismo tiempo. Ninguna sola habría sido suficiente.

DATOS

1.2M

ImageNet: 1,2 millones de imágenes etiquetadas. La escala de datos de entrenamiento era incomparablemente mayor que lo disponible en años anteriores.

CÓMPUTO

GPU

Dos GPUs GTX 580. Las GPUs paralelizaban miles de operaciones simultáneas, convirtiendo semanas de CPU en días de entrenamiento.

ARQUITECTURA

CNN

Red convolucional profunda con ReLU, dropout y max-pooling. Cada capa aprendía representaciones más abstractas que la anterior.

El mensaje no fue "AlexNet ganó ImageNet". Fue "más datos + más cómputo + mejores representaciones produce mejoras predecibles".

ANTES

Visión artificial = ingeniería manual de características (SIFT, HOG, LBP…). Cada dominio requería expertos distintos.

→

DESPUÉS

La red aprende las características por sí sola desde datos crudos. El mismo paradigma funciona en visión, audio, texto y más.

El cambio de régimen no fue técnico: fue epistemológico. Los datos y el cómputo pasaron a ser las palancas dominantes.

2. El Transformer y el preentrenamiento masivo¶

El siguiente gran giro llegó con Attention Is All You Need en 2017. El Transformer no fue simplemente otra arquitectura para lenguaje. Reorganizó el problema alrededor de mecanismos de atención, eliminando la recurrencia del núcleo del modelo y haciendo el entrenamiento mucho más paralelizable.

A partir de ahí se abrieron dos trayectorias especialmente influyentes. Por un lado, BERT mostró la fuerza del preentrenamiento bidireccional y del fine-tuning posterior sobre tareas concretas. Por otro, GPT-2 y después GPT-3 enseñaron que un modelo autoregresivo suficientemente grande podía transferirse a tareas nuevas directamente desde el contexto, primero de forma llamativa en zero-shot y después con capacidades mucho más sólidas de few-shot e in-context learning.

La atención desbloquea reutilización

El Transformer no solo fue más preciso. Fue la primera arquitectura que permitía entrenar una base general y reutilizarla en decenas de tareas distintas sin reentrenar desde cero.

Las RNNs procesaban tokens en secuencia. Eso impedía paralelizar y limitaba cuánto contexto podía integrar el modelo a la vez.

ANTES · RNN/LSTM

t₁

→

t₂

→

t₃

→

t₄

Secuencial. El token 4 no ve el 1 directamente. Contexto largo = degradación de gradiente.

DESPUÉS · Transformer

t₁

t₂

t₃

t₄

Cada token atiende a todos los demás a la vez. Paralelizable. Contexto completo sin degradación.

La autoatención permite que cualquier token consulte directamente a cualquier otro. El modelo aprende qué relaciones importan, sin instrucciones explícitas.

1

Preentrenamiento a escala

Miles de millones de tokens. El objetivo es simple: predecir el siguiente. La red aprende la estructura del lenguaje y del mundo como efecto secundario.

2

Representaciones transferibles

Cada capa codifica patrones de distinto nivel de abstracción. Esas representaciones no son específicas de una tarea: son generales.

3

Reutilización downstream

La misma base sirve para traducción, resumen, código, análisis de imágenes y más. El coste del preentrenamiento se amortiza en cada uso.

Una sola inversión en preentrenamiento se convierte en la base de muchas aplicaciones distintas. Cada downstream cuesta una fracción del original.

PREENTRENAMIENTO

$10M – $100M

Modelo base

Una inversión única. Aprendizaje general del lenguaje, el código y el mundo.

ADAPTACIÓN

Asistente conversacional

$1K – $100K

ADAPTACIÓN

Asistente de código

$1K – $100K

ADAPTACIÓN

Medicina / Legal / Ciencia

$1K – $100K

ADAPTACIÓN

Visión + lenguaje

$1K – $100K

Lo decisivo no fue solo rendir más en un benchmark. Fue cambiar la lógica económica del desarrollo de IA: una base, muchas aplicaciones.

Ese cambio alteró la lógica del progreso. Durante mucho tiempo, cada tarea importante exigía su propio modelo, su propio pipeline y sus propios datos anotados. Con el preentrenamiento a gran escala empezó a resultar más eficaz entrenar una base general y después adaptarla, afinarla o condicionarla para usos concretos.

La misma familia de ideas se extendió además fuera del texto. Vision Transformer llevó el paradigma a visión. CLIP alineó imagen y lenguaje a gran escala. DALL·E y los latent diffusion models mostraron nuevas formas de generar imágenes a partir de lenguaje. Y sistemas multimodales posteriores, como Gemini 1.5, reforzaron la idea de un modelo capaz de trabajar con texto, imagen, audio y vídeo dentro de un mismo sistema.

La escala sale del laboratorio y entra en producto

GPT-3 demostró que la escala funcionaba. ChatGPT demostró que la escala podía llegar a cien millones de personas. El paso entre ambos no fue más cómputo: fue alineamiento.

175 mil millones de parámetros. La escala reveló capacidades que no existían en modelos menores: traducción, resumen, código, razonamiento simple, sin fine-tuning específico.

PARÁMETROS

175B

×1.590 respecto a GPT-2 en 2 años

TOKENS DE ENTRENAMIENTO

300B

CommonCrawl, libros, Wikipedia, código

ACCESO

API

Solo investigadores y empresas seleccionadas

GPT-3 era impresionante pero inestable. Sus respuestas dependían mucho de cómo se formulaba la instrucción. No era usable por el público general.

Entre un buen modelo base y un buen asistente hay un abismo. El alineamiento fue la pieza que faltaba: enseñar al modelo qué respuesta prefieren los humanos, no solo qué respuesta es probable.

MODELO BASE

Predictor de texto

Completa secuencias con alta probabilidad. No distingue entre respuestas útiles, dañinas o simplemente raras.

"¿Cómo hago X?" → continúa con probabilidades de lenguaje, puede generar cualquier cosa plausible

RLHF

Reinforcement Learning from Human Feedback

MODELO ALINEADO

Asistente

Aprende las preferencias humanas a través de comparaciones. Sigue instrucciones, evita respuestas dañinas, mantiene el formato conversacional.

"¿Cómo hago X?" → respuesta estructurada, segura, en el tono adecuado

ChatGPT no fue el modelo más potente de su momento. Fue el primero que cualquier persona podía usar de forma natural. La velocidad de adopción no tuvo precedentes.

Tiempo en alcanzar 100 millones de usuarios activos

Netflix

3,5 años

Instagram

2,5 años

TikTok

9 meses

ChatGPT

2 meses

Fuente: UBS/Similarweb citado por Reuters, enero 2023. La métrica exacta varía según la fuente, pero el orden de magnitud es indiscutible.

La escala dejó de ser un resultado en un paper. Se convirtió en una interfaz pública.

3. La escala se volvió metodología¶

La idea de que el rendimiento mejora de forma relativamente predecible al aumentar parámetros, datos y cómputo no nació con los LLMs, pero se volvió central con ellos. Trabajos como Deep Learning Scaling is Predictable, Empirically, Scaling Laws for Neural Language Models y Training Compute-Optimal Large Language Models fueron dando forma a una intuición cada vez más fuerte: en muchos regímenes, el error cae siguiendo relaciones de potencia estables, y el progreso depende tanto de cómo escalas como de qué escalas.

Escalar tiene retorno predecible

Antes de las leyes de escala, nadie sabía si doblar el compute produciría un modelo mejor. Las leyes de escala dijeron que sí, y exactamente cuánto mejor: la mejora sigue una curva de potencia consistente en parámetros, datos y cómputo.

ANTES · 2019

"¿Vale la pena invertir 10× más compute?"

Desconocido. Se probaba y se veía.

→

DESPUÉS · Kaplan et al. 2020

"¿Vale la pena invertir 10× más compute?"

Sí. La pérdida baja en un factor predecible. Puedes planificarlo antes de entrenar.

Explora qué cambia al escalar

Escala pequeña

Pérdida: ~3.5–4.0

Pregunta: ¿Cuál es la capital de Francia?

Respuesta del modelo: "Francia es un país. Los países tienen capitales. Una capital es una ciudad. Ciudades como Londres son capitales."

Incoherente · no responde

Tarea: Traduce "Hello" al español

Respuesta del modelo: "Hola. Es una palabra. Saludar es importante. Las palabras cambian entre idiomas."

No sigue la instrucción

Escala media

Pérdida: ~2.5–3.0

Pregunta: ¿Cuál es la capital de Francia?

Respuesta del modelo: "La capital de Francia es París, una ciudad importante en Europa."

Correcto · responde a la instrucción

Tarea: Escribe código Python que sume dos números

Respuesta del modelo: "def suma(a, b): resultado = a + b. return resultado si a es mayor que b."

Código parcial · errores de sintaxis

Escala grande

Pérdida: ~1.8–2.2

Tarea: Explica por qué los aviones vuelan en términos simples

Respuesta del modelo: "Los aviones vuelan porque las alas están diseñadas para que el aire pase más rápido por encima que por debajo, creando una diferencia de presión que genera sustentación hacia arriba."

Explicación correcta y clara

Tarea: Escribe una función que invierta una cadena en Python

Respuesta del modelo: "def invertir(s): return s[::-1]"

Código correcto y eficiente

Frontera actual

Pérdida: ~1.2–1.5

Tarea: Razona paso a paso: si María tiene 3 hermanos y cada hermano tiene 2 hijos, ¿cuántos sobrinos tiene María?

Respuesta del modelo: "Cada uno de los 3 hermanos tiene 2 hijos, por lo que el número total de hijos de los hermanos es 3 × 2 = 6. Todos esos niños son sobrinos de María. María tiene 6 sobrinos."

Razonamiento multi-paso correcto

Tarea: Escribe un test unitario para la función invertir(s) anterior

Respuesta del modelo: "def test_invertir(): assert invertir('hola') == 'aloh'; assert invertir('') == ''; assert invertir('a') == 'a'"

Casos de test completos y correctos

L(x) ~ x^−α El exponente α varía según qué escales: parámetros (≈0.076), datos (≈0.095), cómputo (≈0.050). Ajuste empírico, no ley universal. Las leyes predicen pérdida promedio, no qué capacidades concretas aparecerán al escalar.

Eso no significa que la escala lo explique todo. Significa que, una vez que una arquitectura y un objetivo de entrenamiento son suficientemente buenos, aumentar recursos deja de ser una cuestión secundaria y pasa a formar parte de la teoría práctica del sistema.

En este punto conviene introducir una cautela importante. La literatura sobre capacidades emergentes ha sido influyente porque describe saltos bruscos de rendimiento en ciertas tareas cuando el modelo supera determinados tamaños. Pero trabajos posteriores, como Are Emergent Abilities of Large Language Models a Mirage?, sostienen que parte de esa brusquedad puede depender de la métrica elegida o del modo de evaluar. Lo más prudente, por tanto, no es afirmar que toda capacidad nueva emerge de forma misteriosa, sino reconocer que la escala ha traído capacidades nuevas o mucho más robustas mientras la interpretación fuerte de esa emergencia sigue abierta.

¿Emergencia real o artefacto de medición?

Algunas capacidades parecen aparecer de golpe cuando un modelo alcanza cierto tamaño. Pero si ese umbral brusco es real o depende de cómo medimos es una pregunta abierta con consecuencias importantes.

Una tarea concreta a distintas escalas

Pregunta: "¿Cuántas r hay en la palabra strawberry?"

~1B parámetros

"La palabra strawberry tiene 2 letras r."

✗ Incorrecto

El modelo no cuenta caracteres; predice la respuesta más probable por distribución de texto.

~7B parámetros

"Strawberry tiene 3 letras r: s-t-r-a-w-b-e-r-r-y."

△ Correcto, pero sin trazabilidad clara

El modelo acierta el conteo, pero la respuesta no evidencia de forma sólida que esté operando sobre posiciones de caracteres.

~70B parámetros

"Hay 3 letras r en strawberry: en la posición 3, 8 y 9."

✓ Correcto con razonamiento

A esta escala aparece la capacidad de razonar sobre la estructura interna de palabras.

El debate: ¿cómo lees esa mejora?

Lectura fuerte · Wei et al. 2022

Emergencia real: la capacidad no existe por debajo del umbral y aparece de golpe

Rendimiento en la tarea

1B

7B

13B

70B

175B

Métrica: correcto / incorrecto (binario)

Con métrica binaria (correcto o no), el salto parece abrupto. El modelo "no puede" y de repente "puede".

Implicación: hay umbrales reales de capacidad que no se pueden extrapolar desde escalas menores.

Lectura cauta · Schaeffer et al. 2023

Artefacto de métrica: la mejora es gradual pero la métrica binaria la hace parecer brusca

Rendimiento en la tarea

1B

7B

13B

70B

175B

Métrica: crédito parcial (cuántas r detecta correctamente)

Con crédito parcial, el progreso es continuo. El modelo mejora en cada escala, aunque no llega al 100% hasta escalas grandes.

Implicación: no hay "magia" en los umbrales grandes. La emergencia puede ser un artefacto de elegir métricas que no capturan mejoras parciales.

4. Modelos fundacionales: la misma base para muchas tareas¶

A partir de ahí aparece el marco de los modelos fundacionales. La idea central no es solo que un modelo sea grande, sino que se entrene sobre datos amplios, generalmente mediante auto-supervisión a escala, y después pueda adaptarse a una gran variedad de tareas posteriores.

Este cambio tiene una consecuencia técnica y económica enorme. El mismo modelo base puede servir como infraestructura reutilizable para redactar, resumir, traducir, clasificar, extraer información, generar código, recuperar conocimiento y trabajar en varias modalidades con ajustes relativamente pequeños en comparación con entrenar un sistema nuevo para cada tarea.

Aquí está el giro profundo de este periodo. Durante décadas, la IA avanzó como una colección de sistemas especializados. Con los modelos fundacionales, el centro de gravedad se desplazó hacia bases generales preentrenadas que luego se adaptan, se alinean o se encadenan para usos concretos.

Del dato en bruto al producto: tres etapas

Un modelo fundacional no es un producto terminado. Entre el preentrenamiento y el uso real hay dos etapas más, cada una con su propia lógica, su coste y sus limitaciones.

$10M – $100M · semanas de cómputo

Objetivo: predecir el token siguiente

Entra

📚 Libros

🌐 Web

💻 Código

📰 Artículos

Sale

🧠

Modelo base

Billones de parámetros. Conocimiento general del lenguaje y del mundo. Potente pero no instruccionable de forma confiable.

$100K – $10M · interacción humana

Objetivo: seguir instrucciones y evitar daños

Entra

👤 Instrucciones humanas

⚖ Preferencias comparadas

🔄 RLHF / DPO

Sale

🤝

Modelo alineado

Sigue instrucciones, mantiene tono, evita respuestas dañinas. Listo para interacción humana directa.

Variable · por llamada o despliegue

El modelo alineado orquestado con contexto y herramientas

Entra en tiempo de uso

🔧 Herramientas externas

📄 Documentos / RAG

🧩 Memoria temporal

🎯 Instrucción de sistema

Sale

🚀

Producto

El modelo alineado orquestado con contexto, herramientas y memoria. Esto es lo que el usuario experimenta.

5. Lo que este periodo dejó preparado¶

Al llegar a 2024, el campo ya había cambiado de forma estructural. La IA dejó de pensarse principalmente como un conjunto de soluciones aisladas y empezó a organizarse alrededor de modelos base cada vez más grandes, reutilizables y multimodales.

Ese cambio deja preparado el terreno de la siguiente etapa. La escala ya no se entiende solo como una cuestión de más parámetros o más datos, sino como la base sobre la que empiezan a aparecer problemas nuevos: memoria más eficaz, mejor uso de herramientas, búsqueda más activa y una relación más rica con el mundo fuera del texto.

Siguiente capítulo

Capítulo 5 — Más allá del Transformer → — Qué límites dejó visibles el escalado puro y las líneas que el campo está abriendo: memoria durante la inferencia, búsqueda activa, modelos del mundo y robótica.

6. Referencias¶

Fuentes base

Clave	Fuente	Descripción breve
R1	Krizhevsky, Sutskever & Hinton (2012) — ImageNet Classification with Deep Convolutional Neural Networks	AlexNet y el cambio de régimen en visión.
R2	Vaswani et al. (2017) — Attention Is All You Need	Introducción del Transformer.
R3	Devlin et al. (2019) — BERT	Preentrenamiento bidireccional y fine-tuning.
R4	Radford et al. (2019) — Language Models are Unsupervised Multitask Learners	GPT-2 y transferencia zero-shot.
R5	Brown et al. (2020) — Language Models are Few-Shot Learners	GPT-3 e in-context learning a gran escala.
R6	Dosovitskiy et al. (2020) — An Image is Worth 16x16 Words	Vision Transformer.
R7	Radford et al. (2021) — CLIP	Alineación de imagen y lenguaje.
R8	Ramesh et al. (2021) — Zero-Shot Text-to-Image Generation	DALL·E y generación de imagen desde texto.
R9	Rombach et al. (2022) — High-Resolution Image Synthesis with Latent Diffusion Models	Latent diffusion y generación eficiente de imágenes.
R10	Hestness et al. (2017) — Deep Learning Scaling is Predictable, Empirically	Curvas de escala en deep learning.
R11	Kaplan et al. (2020) — Scaling Laws for Neural Language Models	Leyes de escala para modelos de lenguaje.
R12	Hoffmann et al. (2022) — Training Compute-Optimal Large Language Models	Chinchilla y la corrección compute-optimal del escalado.
R13	Wei et al. (2022) — Emergent Abilities of Large Language Models	Formulación influyente del debate sobre emergencia.
R14	Schaeffer et al. (2023) — Are Emergent Abilities of Large Language Models a Mirage?	Crítica metodológica al concepto fuerte de emergencia.
R15	Bommasani et al. (2021) — On the Opportunities and Risks of Foundation Models	Marco conceptual de los modelos fundacionales.
R16	Gemini Team (2024) — Gemini 1.5 report	Multimodalidad y contexto de millones de tokens.