Capítulo 3 — Aprender (≈ 1956 – 2012)¶

⏱️ Tiempo de lectura: 9 min

La Conferencia de Dartmouth no inauguró una tecnología acabada, sino un programa de investigación. La hipótesis era ambiciosa: si el razonamiento humano podía describirse con suficiente precisión, una máquina también podría ejecutarlo. Las décadas siguientes demostraron que esa idea no era absurda, pero sí mucho más difícil de lo que parecía al principio.

Este capítulo recorre el momento en que la IA dejó de apoyarse sobre todo en reglas escritas a mano y empezó a girar, poco a poco, hacia datos, estadística y optimización. El cambio no fue limpio ni instantáneo. Durante mucho tiempo convivieron enfoques distintos, con éxitos parciales y límites muy diferentes. Aun así, la dirección general sí acabó siendo nítida: el campo fue dejando de preguntarse cómo enumerar explícitamente el razonamiento correcto y empezó a interesarse por cómo podía una máquina extraer regularidades útiles a partir de ejemplos.

1. La era de las reglas: cuando la inteligencia se escribía a mano¶

Los primeros sistemas simbólicos¶

Los primeros programas de IA trabajaban con una intuición poderosa: si el razonamiento puede expresarse como una secuencia de pasos formales, quizá baste con representar esos pasos y dejar que la máquina los recorra. En esa línea aparecieron sistemas como Logic Theorist, presentado en 1956, y GPS, el General Problem Solver, descrito a finales de los años 50 y comienzos de los 60. Ambos mostraban algo importante: una máquina podía buscar, combinar reglas y producir cadenas de inferencia no triviales.

El problema era que estos sistemas rendían mejor allí donde el mundo ya estaba muy formalizado. Teoremas, juegos o rompecabezas admiten estados, reglas y metas relativamente limpios. El mundo real, casi nunca.

Sistemas expertos: la madurez del paradigma simbólico¶

Ese enfoque alcanzó su forma más sólida con los sistemas expertos. En vez de aspirar a inteligencia general, intentaban capturar conocimiento de un dominio estrecho mediante reglas, hechos y heurísticas construidas junto a especialistas humanos.

MYCIN, desarrollado en Stanford en los años 70, se convirtió en uno de los casos más conocidos. Daba recomendaciones terapéuticas para infecciones bacterianas graves y mostró que un sistema basado en reglas podía rendir a gran nivel dentro de un dominio muy delimitado. XCON, también llamado R1, automatizó la configuración de sistemas VAX en Digital Equipment y se convirtió en uno de los ejemplos industriales más citados del periodo.

El interés de estos sistemas no está solo en que funcionaran, sino en por qué funcionaban. Lo hacían bien cuando el dominio era relativamente estable, cuando el vocabulario de decisiones podía acotarse y cuando era viable convertir conocimiento experto en reglas mantenibles.

IA simbólica: el conocimiento escrito a mano

Durante tres décadas la IA representó el razonamiento experto como reglas formales. Funcionó dentro de dominios acotados. Tocó techo cuando el conocimiento dejó de caber en reglas.

Paradigma

MYCIN

El límite

Paradigma

La inteligencia como lista de reglas

Si el razonamiento puede expresarse como una secuencia de pasos formales, basta representar esos pasos y dejar que la máquina los recorra. Un experto humano escribe el conocimiento; la máquina lo aplica.

E

Experto

→

R

Reglas

→

M

Motor

→

D

Decisión

Ventaja →cada decisión puede auditarse: se sabe exactamente qué regla se aplicó y por qué

Ejemplo real · Stanford, años 70

MYCIN — 450 reglas para diagnosticar infecciones

MYCIN recomendaba tratamientos antibióticos para infecciones bacterianas graves. Su base de conocimiento contenía reglas escritas junto a médicos especialistas, con factores de certeza asociados a cada inferencia.

R001SI el organismo es gram-positivo Y el sitio es sangre
ENTONCES considerar Staphylococcus (0.7)

R002SI fiebre > 38.5 Y cultivo negativo
ENTONCES considerar antibióticos de amplio espectro (0.65)

+ 448 reglas más, todas escritas a mano por médicos

Resultado →rendimiento comparable al de especialistas dentro de su dominio estrecho y bien definido

El techo

El cuello de botella: adquirir el conocimiento

Mantener un sistema experto no era escribir reglas una vez. Era revisarlas cuando el dominio cambiaba, ampliarlas para cubrir excepciones y resolver conflictos entre reglas que se contradecían. A medida que el dominio crecía, la base se volvía inmanejable.

Dominio estrecho

~50 reglas — viable

Dominio medio

~450 reglas — costoso

Dominio abierto

sin límite visible — inviable

El problema →no era computacional, sino humano: extraer y formalizar el conocimiento experto era lento, costoso y frágil

Por qué ese camino acabó tocando techo¶

El límite apareció cuando el conocimiento dejó de ser pequeño, estable y fácil de formalizar. Mantener un sistema experto no consistía solo en escribir reglas una vez, sino en revisarlas, ampliarlas, resolver conflictos entre ellas y absorber excepciones. A medida que el dominio se volvía más complejo, también lo hacía la base de conocimiento.

Ahí apareció uno de los grandes cuellos de botella de la IA simbólica: la adquisición de conocimiento. Extraer conocimiento experto y traducirlo a una base formal era costoso, lento y frágil. El problema no era únicamente computacional. También era humano y organizativo.

Los llamados inviernos de la IA tienen bastante que ver con este choque entre promesa y realidad. El primero estuvo ligado a expectativas desmesuradas, barreras de complejidad y críticas institucionales como el informe ALPAC de 1966 y el informe Lighthill de 1973. El segundo, a finales de los 80 y comienzos de los 90, suele asociarse al desgaste del paradigma experto, al cuello de botella de adquisición de conocimiento y al colapso del mercado de máquinas Lisp, que había servido de soporte a buena parte de ese ecosistema (JRC AI Watch).

Los inviernos de la IA: el mismo patrón, dos veces

Entre 1956 y 2012 el campo vivió dos ciclos de euforia y colapso. Cada vez la causa fue la misma: las promesas superaron lo que la tecnología del momento podía entregar.

Primer ciclo

Segundo ciclo

Lo que cambió

1956 – 1974

Primer verano y primer invierno

Dartmouth 1956 lanzó expectativas desbordantes: algunos investigadores predijeron IA general en 20 años. El perceptrón de Rosenblatt parecía abrir una vía de aprendizaje real. Minsky y Papert (1969) demostraron sus límites. Los fondos colapsaron.

Verano

Dartmouth 1956 · perceptrón · predicciones de IA general en 20 años

→

Invierno

Minsky y Papert (1969) · informe ALPAC · informe Lighthill (1973) · recortes

El patrón →promesa excesiva, límites visibles, recorte de financiación

1980 – 1993

Sistemas expertos: verano y segundo invierno

Los sistemas expertos (MYCIN, XCON, R1) revivieron el interés. El mercado de IA llegó a 1.000 millones de dólares. El mantenimiento de las bases de conocimiento no escaló. El mercado de máquinas Lisp colapsó. El campo se fragmentó.

Verano

MYCIN · XCON · mercado IA 1.000M$ · inversión corporativa masiva

→

Invierno

Reglas que no escalan · colapso del mercado Lisp · DARPA recorta proyectos

El patrón →idéntico al anterior, aplicado a una tecnología diferente

1993 – 2012

La acumulación silenciosa: tres factores convergen

Sin un verano declarado, tres cambios se acumularon en paralelo. Cuando los tres confluyeron con suficiente escala, el resultado fue suficientemente visible para ser innegable.

D

Datos masivos

Internet y la digitalización generaron volúmenes de texto, imagen y audio sin precedente. ImageNet: 1,2 millones de imágenes etiquetadas.

G

GPUs accesibles

Las tarjetas gráficas, diseñadas para videojuegos, resultaron ideales para el álgebra matricial del entrenamiento neuronal.

B

Benchmarks comunes

ImageNet Large Scale Visual Recognition Challenge convirtió el progreso en algo medible, comparable y acumulativo.

2012 →AlexNet demostró que la convergencia era real: error top-5 del 25,8% al 15,3% de golpe

2. El giro estadístico: aprender a partir de ejemplos¶

El cambio de paradigma no consistió solo en usar más datos, sino en desplazar la pregunta central. En vez de preguntarse qué reglas había que escribir para resolver una tarea, el campo empezó a preguntarse qué regularidades podía inferir un modelo si se le mostraban suficientes ejemplos.

Generalizar sin memorizar¶

Aprender es captar una regularidad que siga funcionando fuera del conjunto de entrenamiento, no simplemente reproducirlo. Ese problema, la generalización, se volvió central con el auge del aprendizaje estadístico.

La teoría del aprendizaje estadístico de Vapnik ofreció un lenguaje para pensar capacidad, riesgo empírico y control del sobreajuste. En paralelo, Valiant formalizó la idea de aprender como adquisición de conocimiento en ausencia de programación explícita. El aprendizaje automático empezó a consolidarse así no como una colección de trucos, sino como una disciplina con fundamentos sobre qué puede aprenderse, con cuántos datos y bajo qué condiciones.

La probabilidad también dejó de ser un accesorio y pasó a ocupar una posición central. En muchos dominios, un sistema no necesita solo decidir. Necesita además representar incertidumbre, combinar evidencia incompleta y actualizar sus creencias cuando llegan nuevos datos.

Optimizar parámetros en lugar de escribir reglas¶

Si un modelo aprende de ejemplos, entonces hay que ajustar sus parámetros para reducir error. Hoy esa idea parece evidente, pero reorganizó el campo entero. El aprendizaje empezó a formularse como un problema de optimización.

El antecedente clásico del enfoque estocástico aparece ya en Robbins y Monro (1951). Más adelante, el descenso de gradiente estocástico permitió entrenar modelos sobre conjuntos de datos grandes sin recalcular el error sobre todos los ejemplos en cada paso. A eso se añadieron técnicas de regularización y validación que ayudaban a que el modelo no solo ajustara bien el pasado, sino que mantuviera capacidad de generalizar.

En esta fase, el campo no avanzó solo con redes neuronales. También crecieron árboles de decisión, métodos kernel, modelos probabilísticos y técnicas de ensemble. El giro de fondo todavía no era “todo es deep learning”. Era, más bien, que muchas tareas empezaban a describirse mejor como problemas de ajuste estadístico que como una lista de reglas escritas a mano.

La representación también se aprende¶

La diferencia decisiva entre muchos métodos clásicos y las redes profundas aparece aquí. En bastantes enfoques anteriores, un humano debía diseñar a mano gran parte de las características relevantes. El modelo aprendía a partir de esos rasgos, pero no aprendía bien la propia representación.

Las redes neuronales multicapa prometían algo más ambicioso: aprender representaciones intermedias útiles directamente desde los datos. Esa idea existía desde mucho antes, aunque durante bastante tiempo costó convertirla en una práctica robusta.

El bucle de entrenamiento: tres piezas, un mecanismo

Todo modelo de aprendizaje automático ajusta sus parámetros mediante el mismo bucle, desde una regresión de 1980 hasta GPT-4. Las tres piezas son inseparables.

Medir el error

Propagar

Ajustar

Pieza 1 · Probabilidad

Cuantificar cuánto se equivoca el modelo

El primer elemento es una función de pérdida. Compara la predicción del modelo con la respuesta correcta y produce un número que representa el error. Cuanto mayor, peor. Sin esta medida no hay dirección de mejora.

Función de pérdida (entropía cruzada)

ℒ = − Σ y · log(ŷ)

y = valor real · ŷ = predicción del modelo · ℒ = error total

Hace posible →calcular en qué dirección deben cambiar los parámetros para reducir el error

Pieza 2 · Backpropagation

Distribuir la responsabilidad del error capa a capa

Regla de la cadena aplicada a redes multicapa. El error calculado se propaga hacia atrás desde la salida, asignando a cada peso una medida de cuánto contribuyó al fallo. Sin esto, entrenar redes profundas era inviable.

Gradiente por parámetro (regla de la cadena)

∂ℒ/∂W = ∂ℒ/∂a · ∂a/∂W

∂ℒ/∂W = cuánto contribuyó W al error total · aplicado a cada capa, de salida a entrada

Rumelhart, Hinton & Williams (1986) →convirtieron el backpropagation en el método central para entrenar redes multicapa

Pieza 3 · Optimización

Moverse en la dirección del error menor

Descenso de gradiente estocástico: actualizar cada peso una fracción pequeña (la tasa de aprendizaje) en la dirección contraria al gradiente. Repetir con cada lote de datos. El modelo converge hacia parámetros que minimizan la pérdida.

Actualización de pesos (SGD)

W ← W − η · ∇ℒ(W)

η = tasa de aprendizaje · ∇ℒ(W) = gradiente calculado por backprop

El bucle completo

Datos

→

Predecir

→

ℒ

→

∂

→

W ←

→

↺

El mismo bucle →idéntico en una regresión logística de 1980 y en el entrenamiento de GPT-4; la escala cambia, el mecanismo no

3. El perceptrón, su crítica y la recuperación de las redes¶

El primer entusiasmo neuronal¶

El perceptrón de Rosenblatt apareció primero como propuesta en 1957 y quedó formalizado con más madurez en su artículo de 1958, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Fue una de las primeras formulaciones influyentes de una neurona artificial entrenable.

La promesa era potente: una máquina podía ajustar pesos a partir de ejemplos y aprender una frontera de decisión en vez de recibirla completamente escrita. Eso abría una vía distinta a la simbólica. En lugar de representar de forma explícita cadenas de inferencia, el sistema ajustaba parámetros para discriminar patrones.

La crítica de Minsky y Papert¶

La crítica clásica llegó con Perceptrons de Minsky y Papert en 1969. Su análisis mostraba límites importantes de los perceptrones de una sola capa y usó como caso central la función XOR (OR exclusivo): una operación que devuelve 1 solo cuando las dos entradas son distintas y 0 cuando son iguales. Es la función booleana más simple que un perceptrón de una capa no puede aprender, porque sus cuatro casos posibles quedan distribuidos en las esquinas de un cuadrado de manera que ninguna línea recta puede separarlos en dos grupos correctos.

El problema no fue que el análisis fuera falso. El problema fue que, durante años, se interpretó como una descalificación práctica mucho más amplia de lo que realmente demostraba. Con el tiempo quedó claro que una red con capas ocultas podía representar funciones fuera del alcance del perceptrón simple. La dificultad no era solo expresiva. También era una cuestión de entrenamiento.

Backpropagation y redes multicapa¶

Ese obstáculo empezó a romperse cuando el entrenamiento de redes profundas dejó de ser una intuición vaga y pasó a tener una receta operativa convincente. El paper de Rumelhart, Hinton y Williams de 1986 convirtió la retropropagación del error en el procedimiento emblemático para ajustar redes multicapa. La idea era propagar el error desde la salida hacia atrás para estimar cómo debía modificarse cada peso.

El principio tenía antecedentes anteriores, pero 1986 fue el punto de inflexión que lo volvió central para la comunidad neuronal (historia del backprop). A partir de ahí, las redes dejaron de ser solo una promesa biológicamente inspirada y pasaron a ser una familia de modelos entrenables con una técnica general.

Por qué un perceptrón no puede aprender XOR

Un perceptrón clasifica trazando una línea recta. XOR tiene cuatro casos dispuestos de forma que ninguna línea puede separarlos. Esa incompatibilidad es geométrica, no algorítmica.

La tarea

El perceptrón

El problema

La prueba

La solución

XOR · La función

Separar con una línea significa: todos los 0s a un lado, todos los 1s al otro

Un perceptrón clasifica trazando una línea en el plano de entrada. Para que funcione, todos los puntos de cada clase deben quedar en lados opuestos de esa línea. La función AND lo permite: sus cuatro casos tienen los 1s agrupados en una esquina. XOR no: sus 0s y sus 1s están en esquinas alternas, en diagonal.

AND — separable ✓

XOR — no separable ✗

El problema →en AND los tres 0s están juntos y el único 1 está aislado: la línea diagonal los separa limpiamente. En XOR los 0s y los 1s se alternan en diagonal, sin ningún lado donde agruparse.

El perceptrón · Cómo clasifica

Un perceptrón suma las entradas con pesos y aplica un umbral. Eso es una línea recta.

Un perceptrón toma las entradas A y B, las multiplica por unos pesos w₁ y w₂, suma un término de sesgo b, y decide: si el resultado supera 0, predice clase 1; si no, clase 0. Esa regla de decisión divide el plano en exactamente dos regiones separadas por una línea recta. El aprendizaje consiste en ajustar w₁, w₂ y b para que esa línea separe bien las clases.

Lo que calcula el perceptrón

w₁·A + w₂·B + b

si > 0 → clase 1 · si ≤ 0 → clase 0

Cada combinación de pesos define una línea diferente. El aprendizaje busca la que mejor separa las clases.

El límite →los pesos pueden cambiar la inclinación y posición de la línea, pero siempre es una línea. El perceptrón no tiene más grados de libertad que esos.

No linealmenente separable · El problema geométrico

Cualquier línea que intentes deja al menos un punto en el lado incorrecto

El patrón en diagonal de XOR hace que este problema sea irresoluble para cualquier frontera lineal. Da igual el ángulo: una línea horizontal separa por valor de B pero mezcla los 0s y los 1s de cada fila. Una vertical hace lo mismo por columnas. Una diagonal pone a (0,0) y (1,1) separados de (0,1) y (1,0), pero eso no coincide con XOR. No hay ángulo que funcione.

Línea horizontal

Línea vertical

Línea diagonal

La conclusión →no es que el perceptrón no encuentre la línea correcta. Es que esa línea no existe. XOR requiere una frontera que se doble, y un perceptrón de una capa solo puede trazar una recta.

Prueba algebraica · La contradicción

Las cuatro condiciones que XOR exige son matemáticamente incompatibles

Si existiera una solución (w₁, w₂, b), tendría que clasificar los cuatro casos a la vez. Cada caso impone una desigualdad sobre los pesos. Sumar las dos condiciones de los casos con salida 1 produce algo que contradice directamente la condición del caso (1,1).

(0,0) → 0 b < 0

(0,1) → 1 w₂ + b > 0

(1,0) → 1 w₁ + b > 0

(1,1) → 0 w₁ + w₂ + b < 0

Suma (0,1) + (1,0): w₁ + w₂ + 2b > 0

↓ como b < 0, entonces −2b > −b

se deduce: w₁ + w₂ > −2b > −b

↓ pero (1,1) exige lo contrario

w₁ + w₂ + b < 0 → w₁ + w₂ < −b ✗ contradicción

Consecuencia →no es que el optimizador no encuentre la solución. No existe ningún (w₁, w₂, b) que satisfaga las cuatro condiciones. La imposibilidad es matemática, no computacional.

Redes multicapa · La solución

Dos neuronas ocultas doblan el espacio. La salida sigue siendo una línea recta.

Cada neurona oculta traza su propia frontera en el espacio de entrada: una actúa como OR (se activa si al menos una entrada es 1) y otra como AND (solo si las dos son 1). Juntas crean una franja donde viven exactamente los dos casos XOR=1. Al proyectar al nuevo espacio, esos dos puntos colapsan en la misma posición y una sola recta basta.

Espacio original — dos fronteras

→

Espacio oculto — una frontera

La clave →(0,1) y (1,0) colapsan al mismo punto en el espacio oculto. La capa oculta no clasifica: transforma. La neurona de salida sigue siendo una línea recta, pero trazada en un espacio que la capa oculta ya dobló.

4. NLP antes de los transformers¶

El procesamiento del lenguaje natural siguió durante mucho tiempo una trayectoria distinta de la que más tarde impondrían los transformers. Antes de los grandes modelos neuronales, el campo estuvo dominado por enfoques estadísticos y secuenciales.

Los modelos de n-gramas, cuya genealogía arranca en parte de las ideas de Shannon sobre secuencias, trataban de estimar la probabilidad de una palabra a partir de unas pocas palabras anteriores. Eran simples, eficaces y muy útiles, pero tenían una limitación evidente: su memoria efectiva era corta.

Los modelos ocultos de Markov dominaron durante años tareas como reconocimiento de voz y etiquetado secuencial. Más tarde, los campos aleatorios condicionales ofrecieron una alternativa potente para segmentar y etiquetar secuencias relajando ciertas restricciones fuertes de los HMM.

Todos estos enfoques fueron valiosos, pero compartían una limitación de fondo: trabajaban bien con correlaciones locales y estructuras probabilísticas manejables, pero no aprendían representaciones contextuales profundas del lenguaje. El contexto largo, la ambigüedad semántica y la composición abierta seguían resistiéndose.

NLP antes del Transformer: tres enfoques, un límite común

Durante cuatro décadas el procesamiento del lenguaje se construyó sobre estadística y secuencias. Cada enfoque fue un avance real y tenía el mismo límite de fondo: el contexto se perdía.

N-gramas

HMM

CRF

Perspectiva

Enfoque estadístico · 1980s–2000s

N-gramas: predecir la siguiente palabra por contexto local

Un modelo de N-gramas estima la probabilidad de una palabra dado solo el fragmento inmediatamente anterior. Un trigrama mira las dos palabras previas. Fue la base del reconocimiento de voz y la traducción estadística durante décadas.

Ejemplo — predicción con trigrama

El

gato

come

___

ventana activa: gato + come → P(siguiente)

pescado

32 %

ratones

24 %

mucho

14 %

El límite →«El gato que compró mi vecina el martes come ___» depende de "gato", a nueve palabras. Un trigrama no llega: solo ve dos palabras atrás.

Modelo de estados ocultos · 1970s–2000s

HMM: las etiquetas como estados que generan las palabras

Los Modelos Ocultos de Markov tratan las categorías gramaticales como estados no observados que generan las palabras visibles. El algoritmo de Viterbi infiere la secuencia de estados más probable. Dominó el reconocimiento de voz y el etiquetado gramatical durante dos décadas.

Etiquetado gramatical (POS tagging)

Estados ocultos

DET

NOUN

VERB

DET

NOUN

↓↓↓↓↓

Palabras observadas

El

gato

come

el

pescado

El límite →asume que cada palabra depende solo de su estado actual, no del contexto global. Las dependencias a distancia y la ambigüedad semántica quedan fuera de su alcance.

Modelo discriminativo · 2001–2010s

CRF: modelar la etiqueta directamente, con features a mano

Los Campos Aleatorios Condicionales mejoraron a los HMM al modelar directamente P(etiquetas | palabras) y permitir features arbitrarias del contexto. Fueron el estado del arte en reconocimiento de entidades hasta que las redes neuronales los desplazaron.

Reconocimiento de entidades (NER)

Ayer Alan Turing publicó en Cambridge

PERSONA

LUGAR / ORG

Otro

Features diseñadas a mano

Empieza con mayúscula

Palabra anterior es artículo

Sufijo de la palabra (-ing, -tion)

El límite →las features deben diseñarse a mano. No hay representación de significado: "banco" (institución) y "banco" (mueble) se distinguen por contexto, pero el CRF no tiene esa capa semántica.

El patrón común · 1980–2012

Lo que los tres enfoques no podían hacer

N-gramas, HMM y CRF fueron avances reales, cada uno sobre el anterior. Pero los tres compartían la misma limitación de fondo: el contexto se procesaba de forma local y las representaciones se diseñaban a mano. El Transformer abordó exactamente esos dos frentes.

Antes del Transformer

Contexto limitado a ventana local o estado actual

Features diseñadas manualmente por lingüistas

Sin representación semántica de las palabras

Un modelo distinto para cada tarea

El Transformer (2017)

Atención sobre el contexto completo de la secuencia

Representaciones aprendidas desde los datos

Embeddings con información semántica y posicional

Un modelo base, múltiples tareas con fine-tuning

La transición →el campo no abandonó la estadística, sino que dejó de necesitar que los humanos diseñaran las representaciones: eso también pasó a aprenderse.

5. El renacimiento neuronal: qué cambió antes de 2012¶

El resurgir del aprendizaje profundo no puede explicarse por una sola causa. Fue la convergencia de varios cambios que durante décadas habían estado incompletos.

Más datos, más cómputo, mejores referencias compartidas¶

Primero llegó la escala. La digitalización masiva de texto, imagen, audio y actividad en línea produjo volúmenes de datos que los enfoques anteriores rara vez habían podido aprovechar. En visión, ImageNet convirtió esa escala en una infraestructura concreta para investigación comparativa.

Después llegó el hardware adecuado. Las GPUs, diseñadas para computación paralela intensiva, encajaban muy bien con el álgebra lineal del entrenamiento neuronal. El cambio fue operativo: ciertos modelos que durante años habían parecido interesantes pero impracticables empezaron a ser entrenables en tiempos razonables.

También hicieron falta referencias compartidas para medir progreso. Sin benchmarks comunes, cada grupo puede parecer bueno en su propio problema. Con benchmarks, el progreso se vuelve visible, comparable y acumulativo.

El preludio inmediato de la explosión¶

Antes de AlexNet hubo un prólogo importante. Trabajos como Reducing the Dimensionality of Data with Neural Networks en 2006 y Greedy Layer-Wise Training of Deep Networks en 2007 ayudaron a reabrir el problema de entrenar redes profundas cuando todavía no era evidente que pudieran escalar bien con inicialización directa.

Ese periodo no resolvió todo, pero cambió el clima intelectual del campo. Las redes profundas dejaban de parecer una curiosidad histórica y empezaban a recuperar credibilidad empírica.

2012 como umbral¶

El cierre natural de este capítulo está en 2012. AlexNet entrenó una red profunda sobre 1,2 millones de imágenes del reto ImageNet, usando dos GPUs GTX 580 durante 5-6 días y varios elementos de diseño que ya apuntaban a la nueva fase.

El salto fue lo bastante grande como para cambiar la dirección del campo. No inaugura por sí solo toda la era actual, pero sí marca el umbral a partir del cual el aprendizaje profundo dejó de ser una línea prometedora entre varias y pasó a convertirse en el eje dominante del progreso en visión y, poco después, en voz y lenguaje.

6. Lo que este periodo dejó preparado¶

Al llegar a 2012, la IA había cambiado de forma profunda. No había abandonado del todo las reglas ni la lógica, pero ya no las trataba como el camino principal para construir sistemas competentes a gran escala. El centro de gravedad se había desplazado hacia modelos que aprenden a partir de datos, ajustan parámetros y mejoran a medida que crecen los ejemplos, el cómputo y la calidad de las representaciones.

Ese desplazamiento deja preparado el terreno del siguiente capítulo, donde la historia ya no gira tanto sobre si una máquina puede aprender de los datos, sino sobre lo que ocurre cuando ese aprendizaje encuentra suficiente escala.

Siguiente capítulo

Capítulo 4 — Escalar → — AlexNet, el Transformer y las leyes de escala: qué pasó cuando el aprendizaje encontró datos masivos, GPUs y arquitecturas nuevas.

7. Referencias¶

Fuentes base

Clave	Fuente	Descripción breve
R1	Newell & Simon (1956) — The Logic Theory Machine	Primer gran ejemplo de razonamiento simbólico automatizado.
R2	Newell, Shaw & Simon (1959-1961) — GPS, A Program that Simulates Human Thought	Programa emblemático del enfoque de búsqueda heurística.
R3	McDermott (1980) — R1: An Expert in the Computer Systems Domain	Caso fundacional de XCON/R1 en configuración de sistemas VAX.
R4	Buchanan & Shortliffe (1984) — evaluación de MYCIN	Rendimiento, desacuerdo entre expertos y límites de evaluación en sistemas expertos.
R5	JRC AI Watch (2020) — Historical Evolution of Artificial Intelligence	Marco histórico de inviernos de la IA, auge simbólico y transición a ML.
R6	Vapnik — The Nature of Statistical Learning Theory	Fundamentos de generalización y aprendizaje estadístico.
R7	Valiant (1984) — A Theory of the Learnable	Formalización del aprendizaje sin programación explícita.
R8	Robbins & Monro (1951) — A Stochastic Approximation Method	Antecedente clásico del aprendizaje por actualización estocástica.
R9	Rosenblatt (1958) — The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain	Formulación clásica del perceptrón.
R10	Minsky & Papert (1969) — Perceptrons	Análisis clásico de los límites del perceptrón de una capa.
R11	Rumelhart, Hinton & Williams (1986) — Learning representations by back-propagating errors	Paper canónico de backpropagation en redes multicapa.
R12	Schmidhuber — historia de backprop	Resumen histórico de antecedentes previos a 1986.
R13	Jurafsky & Martin — capítulo sobre n-gramas	Marco clásico para modelos de lenguaje previos a transformers.
R14	Rabiner (1989) — A Tutorial on Hidden Markov Models	Referencia clásica sobre HMM en secuencias y voz.
R15	Lafferty, McCallum & Pereira (2001) — Conditional Random Fields	Introducción de CRF para secuencias etiquetadas.
R16	Deng et al. (2009) — ImageNet: A Large-Scale Hierarchical Image Database	Dataset y benchmark clave en visión.
R17	Hinton & Salakhutdinov (2006) — Reducing the Dimensionality of Data with Neural Networks	Reapertura del entrenamiento profundo en la fase previa al boom.
R18	Bengio et al. (2007) — Greedy Layer-Wise Training of Deep Networks	Papel del preentrenamiento capa a capa en redes profundas.
R19	Krizhevsky, Sutskever & Hinton (2012) — ImageNet Classification with Deep Convolutional Neural Networks	AlexNet y el umbral de 2012.
R20	LeCun, Bengio & Hinton (2015) — Deep Learning	Revisión histórica y técnica del auge del aprendizaje profundo.