Saltar a contenido

Capítulo 3 — Aprender (≈ 1956 – 2012)

⏱️ Tiempo de lectura: 9 min

La Conferencia de Dartmouth no inauguró una tecnología acabada, sino un programa de investigación. La hipótesis era ambiciosa: si el razonamiento humano podía describirse con suficiente precisión, una máquina también podría ejecutarlo. Las décadas siguientes demostraron que esa idea no era absurda, pero sí mucho más difícil de lo que parecía al principio.

Este capítulo recorre el momento en que la IA dejó de apoyarse sobre todo en reglas escritas a mano y empezó a girar, poco a poco, hacia datos, estadística y optimización. El cambio no fue limpio ni instantáneo. Durante mucho tiempo convivieron enfoques distintos, con éxitos parciales y límites muy diferentes. Aun así, la dirección general sí acabó siendo nítida: el campo fue dejando de preguntarse cómo enumerar explícitamente el razonamiento correcto y empezó a interesarse por cómo podía una máquina extraer regularidades útiles a partir de ejemplos.


1. La era de las reglas: cuando la inteligencia se escribía a mano

Los primeros sistemas simbólicos

Los primeros programas de IA trabajaban con una intuición poderosa: si el razonamiento puede expresarse como una secuencia de pasos formales, quizá baste con representar esos pasos y dejar que la máquina los recorra. En esa línea aparecieron sistemas como Logic Theorist, presentado en 1956, y GPS, el General Problem Solver, descrito a finales de los años 50 y comienzos de los 60. Ambos mostraban algo importante: una máquina podía buscar, combinar reglas y producir cadenas de inferencia no triviales.

El problema era que estos sistemas rendían mejor allí donde el mundo ya estaba muy formalizado. Teoremas, juegos o rompecabezas admiten estados, reglas y metas relativamente limpios. El mundo real, casi nunca.

Sistemas expertos: la madurez del paradigma simbólico

Ese enfoque alcanzó su forma más sólida con los sistemas expertos. En vez de aspirar a inteligencia general, intentaban capturar conocimiento de un dominio estrecho mediante reglas, hechos y heurísticas construidas junto a especialistas humanos.

MYCIN, desarrollado en Stanford en los años 70, se convirtió en uno de los casos más conocidos. Daba recomendaciones terapéuticas para infecciones bacterianas graves y mostró que un sistema basado en reglas podía rendir a gran nivel dentro de un dominio muy delimitado. XCON, también llamado R1, automatizó la configuración de sistemas VAX en Digital Equipment y se convirtió en uno de los ejemplos industriales más citados del periodo.

El interés de estos sistemas no está solo en que funcionaran, sino en por qué funcionaban. Lo hacían bien cuando el dominio era relativamente estable, cuando el vocabulario de decisiones podía acotarse y cuando era viable convertir conocimiento experto en reglas mantenibles.

IA simbólica: el conocimiento escrito a mano
Durante tres décadas la IA representó el razonamiento experto como reglas formales. Funcionó dentro de dominios acotados. Tocó techo cuando el conocimiento dejó de caber en reglas.
Paradigma
MYCIN
El límite
Paradigma
La inteligencia como lista de reglas
Si el razonamiento puede expresarse como una secuencia de pasos formales, basta representar esos pasos y dejar que la máquina los recorra. Un experto humano escribe el conocimiento; la máquina lo aplica.
E
Experto
R
Reglas
M
Motor
D
Decisión
Ventaja →cada decisión puede auditarse: se sabe exactamente qué regla se aplicó y por qué
Ejemplo real · Stanford, años 70
MYCIN — 450 reglas para diagnosticar infecciones
MYCIN recomendaba tratamientos antibióticos para infecciones bacterianas graves. Su base de conocimiento contenía reglas escritas junto a médicos especialistas, con factores de certeza asociados a cada inferencia.
R001SI el organismo es gram-positivo Y el sitio es sangre
ENTONCES considerar Staphylococcus (0.7)
R002SI fiebre > 38.5 Y cultivo negativo
ENTONCES considerar antibióticos de amplio espectro (0.65)
+ 448 reglas más, todas escritas a mano por médicos
Resultado →rendimiento comparable al de especialistas dentro de su dominio estrecho y bien definido
El techo
El cuello de botella: adquirir el conocimiento
Mantener un sistema experto no era escribir reglas una vez. Era revisarlas cuando el dominio cambiaba, ampliarlas para cubrir excepciones y resolver conflictos entre reglas que se contradecían. A medida que el dominio crecía, la base se volvía inmanejable.
Dominio estrecho
~50 reglas — viable
Dominio medio
~450 reglas — costoso
Dominio abierto
sin límite visible — inviable
El problema →no era computacional, sino humano: extraer y formalizar el conocimiento experto era lento, costoso y frágil

Por qué ese camino acabó tocando techo

El límite apareció cuando el conocimiento dejó de ser pequeño, estable y fácil de formalizar. Mantener un sistema experto no consistía solo en escribir reglas una vez, sino en revisarlas, ampliarlas, resolver conflictos entre ellas y absorber excepciones. A medida que el dominio se volvía más complejo, también lo hacía la base de conocimiento.

Ahí apareció uno de los grandes cuellos de botella de la IA simbólica: la adquisición de conocimiento. Extraer conocimiento experto y traducirlo a una base formal era costoso, lento y frágil. El problema no era únicamente computacional. También era humano y organizativo.

Los llamados inviernos de la IA tienen bastante que ver con este choque entre promesa y realidad. El primero estuvo ligado a expectativas desmesuradas, barreras de complejidad y críticas institucionales como el informe ALPAC de 1966 y el informe Lighthill de 1973. El segundo, a finales de los 80 y comienzos de los 90, suele asociarse al desgaste del paradigma experto, al cuello de botella de adquisición de conocimiento y al colapso del mercado de máquinas Lisp, que había servido de soporte a buena parte de ese ecosistema (JRC AI Watch).

Los inviernos de la IA: el mismo patrón, dos veces
Entre 1956 y 2012 el campo vivió dos ciclos de euforia y colapso. Cada vez la causa fue la misma: las promesas superaron lo que la tecnología del momento podía entregar.
Primer ciclo
Segundo ciclo
Lo que cambió
1956 – 1974
Primer verano y primer invierno
Dartmouth 1956 lanzó expectativas desbordantes: algunos investigadores predijeron IA general en 20 años. El perceptrón de Rosenblatt parecía abrir una vía de aprendizaje real. Minsky y Papert (1969) demostraron sus límites. Los fondos colapsaron.
Verano
Dartmouth 1956 · perceptrón · predicciones de IA general en 20 años
Invierno
Minsky y Papert (1969) · informe ALPAC · informe Lighthill (1973) · recortes
El patrón →promesa excesiva, límites visibles, recorte de financiación
1980 – 1993
Sistemas expertos: verano y segundo invierno
Los sistemas expertos (MYCIN, XCON, R1) revivieron el interés. El mercado de IA llegó a 1.000 millones de dólares. El mantenimiento de las bases de conocimiento no escaló. El mercado de máquinas Lisp colapsó. El campo se fragmentó.
Verano
MYCIN · XCON · mercado IA 1.000M$ · inversión corporativa masiva
Invierno
Reglas que no escalan · colapso del mercado Lisp · DARPA recorta proyectos
El patrón →idéntico al anterior, aplicado a una tecnología diferente
1993 – 2012
La acumulación silenciosa: tres factores convergen
Sin un verano declarado, tres cambios se acumularon en paralelo. Cuando los tres confluyeron con suficiente escala, el resultado fue suficientemente visible para ser innegable.
D
Datos masivos
Internet y la digitalización generaron volúmenes de texto, imagen y audio sin precedente. ImageNet: 1,2 millones de imágenes etiquetadas.
G
GPUs accesibles
Las tarjetas gráficas, diseñadas para videojuegos, resultaron ideales para el álgebra matricial del entrenamiento neuronal.
B
Benchmarks comunes
ImageNet Large Scale Visual Recognition Challenge convirtió el progreso en algo medible, comparable y acumulativo.
2012 →AlexNet demostró que la convergencia era real: error top-5 del 25,8% al 15,3% de golpe

2. El giro estadístico: aprender a partir de ejemplos

El cambio de paradigma no consistió solo en usar más datos, sino en desplazar la pregunta central. En vez de preguntarse qué reglas había que escribir para resolver una tarea, el campo empezó a preguntarse qué regularidades podía inferir un modelo si se le mostraban suficientes ejemplos.

Generalizar sin memorizar

Aprender es captar una regularidad que siga funcionando fuera del conjunto de entrenamiento, no simplemente reproducirlo. Ese problema, la generalización, se volvió central con el auge del aprendizaje estadístico.

La teoría del aprendizaje estadístico de Vapnik ofreció un lenguaje para pensar capacidad, riesgo empírico y control del sobreajuste. En paralelo, Valiant formalizó la idea de aprender como adquisición de conocimiento en ausencia de programación explícita. El aprendizaje automático empezó a consolidarse así no como una colección de trucos, sino como una disciplina con fundamentos sobre qué puede aprenderse, con cuántos datos y bajo qué condiciones.

La probabilidad también dejó de ser un accesorio y pasó a ocupar una posición central. En muchos dominios, un sistema no necesita solo decidir. Necesita además representar incertidumbre, combinar evidencia incompleta y actualizar sus creencias cuando llegan nuevos datos.

Optimizar parámetros en lugar de escribir reglas

Si un modelo aprende de ejemplos, entonces hay que ajustar sus parámetros para reducir error. Hoy esa idea parece evidente, pero reorganizó el campo entero. El aprendizaje empezó a formularse como un problema de optimización.

El antecedente clásico del enfoque estocástico aparece ya en Robbins y Monro (1951). Más adelante, el descenso de gradiente estocástico permitió entrenar modelos sobre conjuntos de datos grandes sin recalcular el error sobre todos los ejemplos en cada paso. A eso se añadieron técnicas de regularización y validación que ayudaban a que el modelo no solo ajustara bien el pasado, sino que mantuviera capacidad de generalizar.

En esta fase, el campo no avanzó solo con redes neuronales. También crecieron árboles de decisión, métodos kernel, modelos probabilísticos y técnicas de ensemble. El giro de fondo todavía no era “todo es deep learning”. Era, más bien, que muchas tareas empezaban a describirse mejor como problemas de ajuste estadístico que como una lista de reglas escritas a mano.

La representación también se aprende

La diferencia decisiva entre muchos métodos clásicos y las redes profundas aparece aquí. En bastantes enfoques anteriores, un humano debía diseñar a mano gran parte de las características relevantes. El modelo aprendía a partir de esos rasgos, pero no aprendía bien la propia representación.

Las redes neuronales multicapa prometían algo más ambicioso: aprender representaciones intermedias útiles directamente desde los datos. Esa idea existía desde mucho antes, aunque durante bastante tiempo costó convertirla en una práctica robusta.

El bucle de entrenamiento: tres piezas, un mecanismo
Todo modelo de aprendizaje automático ajusta sus parámetros mediante el mismo bucle, desde una regresión de 1980 hasta GPT-4. Las tres piezas son inseparables.
Medir el error
Propagar
Ajustar
Pieza 1 · Probabilidad
Cuantificar cuánto se equivoca el modelo
El primer elemento es una función de pérdida. Compara la predicción del modelo con la respuesta correcta y produce un número que representa el error. Cuanto mayor, peor. Sin esta medida no hay dirección de mejora.
Función de pérdida (entropía cruzada)
ℒ = − Σ y · log(ŷ)
y = valor real  ·  ŷ = predicción del modelo  ·  ℒ = error total
Hace posible →calcular en qué dirección deben cambiar los parámetros para reducir el error
Pieza 2 · Backpropagation
Distribuir la responsabilidad del error capa a capa
Regla de la cadena aplicada a redes multicapa. El error calculado se propaga hacia atrás desde la salida, asignando a cada peso una medida de cuánto contribuyó al fallo. Sin esto, entrenar redes profundas era inviable.
Gradiente por parámetro (regla de la cadena)
∂ℒ/∂W = ∂ℒ/∂a · ∂a/∂W
∂ℒ/∂W = cuánto contribuyó W al error total  ·  aplicado a cada capa, de salida a entrada
Rumelhart, Hinton & Williams (1986) →convirtieron el backpropagation en el método central para entrenar redes multicapa
Pieza 3 · Optimización
Moverse en la dirección del error menor
Descenso de gradiente estocástico: actualizar cada peso una fracción pequeña (la tasa de aprendizaje) en la dirección contraria al gradiente. Repetir con cada lote de datos. El modelo converge hacia parámetros que minimizan la pérdida.
Actualización de pesos (SGD)
W ← W − η · ∇ℒ(W)
η = tasa de aprendizaje  ·  ∇ℒ(W) = gradiente calculado por backprop
El bucle completo
Datos
Predecir
W ←
El mismo bucle →idéntico en una regresión logística de 1980 y en el entrenamiento de GPT-4; la escala cambia, el mecanismo no

3. El perceptrón, su crítica y la recuperación de las redes

El primer entusiasmo neuronal

El perceptrón de Rosenblatt apareció primero como propuesta en 1957 y quedó formalizado con más madurez en su artículo de 1958, The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. Fue una de las primeras formulaciones influyentes de una neurona artificial entrenable.

La promesa era potente: una máquina podía ajustar pesos a partir de ejemplos y aprender una frontera de decisión en vez de recibirla completamente escrita. Eso abría una vía distinta a la simbólica. En lugar de representar de forma explícita cadenas de inferencia, el sistema ajustaba parámetros para discriminar patrones.

La crítica de Minsky y Papert

La crítica clásica llegó con Perceptrons de Minsky y Papert en 1969. Su análisis mostraba límites importantes de los perceptrones de una sola capa y usó como caso central la función XOR (OR exclusivo): una operación que devuelve 1 solo cuando las dos entradas son distintas y 0 cuando son iguales. Es la función booleana más simple que un perceptrón de una capa no puede aprender, porque sus cuatro casos posibles quedan distribuidos en las esquinas de un cuadrado de manera que ninguna línea recta puede separarlos en dos grupos correctos.

El problema no fue que el análisis fuera falso. El problema fue que, durante años, se interpretó como una descalificación práctica mucho más amplia de lo que realmente demostraba. Con el tiempo quedó claro que una red con capas ocultas podía representar funciones fuera del alcance del perceptrón simple. La dificultad no era solo expresiva. También era una cuestión de entrenamiento.

Backpropagation y redes multicapa

Ese obstáculo empezó a romperse cuando el entrenamiento de redes profundas dejó de ser una intuición vaga y pasó a tener una receta operativa convincente. El paper de Rumelhart, Hinton y Williams de 1986 convirtió la retropropagación del error en el procedimiento emblemático para ajustar redes multicapa. La idea era propagar el error desde la salida hacia atrás para estimar cómo debía modificarse cada peso.

El principio tenía antecedentes anteriores, pero 1986 fue el punto de inflexión que lo volvió central para la comunidad neuronal (historia del backprop). A partir de ahí, las redes dejaron de ser solo una promesa biológicamente inspirada y pasaron a ser una familia de modelos entrenables con una técnica general.

Por qué un perceptrón no puede aprender XOR
Un perceptrón clasifica trazando una línea recta. XOR tiene cuatro casos dispuestos de forma que ninguna línea puede separarlos. Esa incompatibilidad es geométrica, no algorítmica.
La tarea
El perceptrón
El problema
La prueba
La solución
XOR · La función
Separar con una línea significa: todos los 0s a un lado, todos los 1s al otro
Un perceptrón clasifica trazando una línea en el plano de entrada. Para que funcione, todos los puntos de cada clase deben quedar en lados opuestos de esa línea. La función AND lo permite: sus cuatro casos tienen los 1s agrupados en una esquina. XOR no: sus 0s y sus 1s están en esquinas alternas, en diagonal.
AND — separable ✓
A B 0 1 0 1 0 0 0 1
XOR — no separable ✗
A B 0 1 0 1 0 1 1 0 ?
El problema →en AND los tres 0s están juntos y el único 1 está aislado: la línea diagonal los separa limpiamente. En XOR los 0s y los 1s se alternan en diagonal, sin ningún lado donde agruparse.
El perceptrón · Cómo clasifica
Un perceptrón suma las entradas con pesos y aplica un umbral. Eso es una línea recta.
Un perceptrón toma las entradas A y B, las multiplica por unos pesos w₁ y w₂, suma un término de sesgo b, y decide: si el resultado supera 0, predice clase 1; si no, clase 0. Esa regla de decisión divide el plano en exactamente dos regiones separadas por una línea recta. El aprendizaje consiste en ajustar w₁, w₂ y b para que esa línea separe bien las clases.
Lo que calcula el perceptrón
w₁·A + w₂·B + b
si > 0 → clase 1 · si ≤ 0 → clase 0
Cada combinación de pesos define una línea diferente. El aprendizaje busca la que mejor separa las clases.
clase 0 clase 1 w₁·A + w₂·B + b = 0
El límite →los pesos pueden cambiar la inclinación y posición de la línea, pero siempre es una línea. El perceptrón no tiene más grados de libertad que esos.
No linealmenente separable · El problema geométrico
Cualquier línea que intentes deja al menos un punto en el lado incorrecto
El patrón en diagonal de XOR hace que este problema sea irresoluble para cualquier frontera lineal. Da igual el ángulo: una línea horizontal separa por valor de B pero mezcla los 0s y los 1s de cada fila. Una vertical hace lo mismo por columnas. Una diagonal pone a (0,0) y (1,1) separados de (0,1) y (1,0), pero eso no coincide con XOR. No hay ángulo que funcione.
Línea horizontal
0 1 1 0
Línea vertical
0 1 1 0
Línea diagonal
0 1 1 0
La conclusión →no es que el perceptrón no encuentre la línea correcta. Es que esa línea no existe. XOR requiere una frontera que se doble, y un perceptrón de una capa solo puede trazar una recta.
Prueba algebraica · La contradicción
Las cuatro condiciones que XOR exige son matemáticamente incompatibles
Si existiera una solución (w₁, w₂, b), tendría que clasificar los cuatro casos a la vez. Cada caso impone una desigualdad sobre los pesos. Sumar las dos condiciones de los casos con salida 1 produce algo que contradice directamente la condición del caso (1,1).
(0,0) → 0 b < 0
(0,1) → 1 w₂ + b > 0
(1,0) → 1 w₁ + b > 0
(1,1) → 0 w₁ + w₂ + b < 0
Suma (0,1) + (1,0):  w₁ + w₂ + 2b > 0
↓  como b < 0, entonces −2b > −b
se deduce:  w₁ + w₂ > −2b > −b
↓  pero (1,1) exige lo contrario
w₁ + w₂ + b < 0  →  w₁ + w₂ < −b   ✗  contradicción
Consecuencia →no es que el optimizador no encuentre la solución. No existe ningún (w₁, w₂, b) que satisfaga las cuatro condiciones. La imposibilidad es matemática, no computacional.
Redes multicapa · La solución
Dos neuronas ocultas doblan el espacio. La salida sigue siendo una línea recta.
Cada neurona oculta traza su propia frontera en el espacio de entrada: una actúa como OR (se activa si al menos una entrada es 1) y otra como AND (solo si las dos son 1). Juntas crean una franja donde viven exactamente los dos casos XOR=1. Al proyectar al nuevo espacio, esos dos puntos colapsan en la misma posición y una sola recta basta.
Espacio original — dos fronteras
A B 0 1 0 1 h₁ h₂ 0 1 1 0
Espacio oculto — una frontera
h₁ (OR) h₂ 0 1 0 1 0 1 ×2 0
La clave →(0,1) y (1,0) colapsan al mismo punto en el espacio oculto. La capa oculta no clasifica: transforma. La neurona de salida sigue siendo una línea recta, pero trazada en un espacio que la capa oculta ya dobló.

4. NLP antes de los transformers

El procesamiento del lenguaje natural siguió durante mucho tiempo una trayectoria distinta de la que más tarde impondrían los transformers. Antes de los grandes modelos neuronales, el campo estuvo dominado por enfoques estadísticos y secuenciales.

Los modelos de n-gramas, cuya genealogía arranca en parte de las ideas de Shannon sobre secuencias, trataban de estimar la probabilidad de una palabra a partir de unas pocas palabras anteriores. Eran simples, eficaces y muy útiles, pero tenían una limitación evidente: su memoria efectiva era corta.

Los modelos ocultos de Markov dominaron durante años tareas como reconocimiento de voz y etiquetado secuencial. Más tarde, los campos aleatorios condicionales ofrecieron una alternativa potente para segmentar y etiquetar secuencias relajando ciertas restricciones fuertes de los HMM.

Todos estos enfoques fueron valiosos, pero compartían una limitación de fondo: trabajaban bien con correlaciones locales y estructuras probabilísticas manejables, pero no aprendían representaciones contextuales profundas del lenguaje. El contexto largo, la ambigüedad semántica y la composición abierta seguían resistiéndose.

NLP antes del Transformer: tres enfoques, un límite común
Durante cuatro décadas el procesamiento del lenguaje se construyó sobre estadística y secuencias. Cada enfoque fue un avance real y tenía el mismo límite de fondo: el contexto se perdía.
N-gramas
HMM
CRF
Perspectiva
Enfoque estadístico · 1980s–2000s
N-gramas: predecir la siguiente palabra por contexto local
Un modelo de N-gramas estima la probabilidad de una palabra dado solo el fragmento inmediatamente anterior. Un trigrama mira las dos palabras previas. Fue la base del reconocimiento de voz y la traducción estadística durante décadas.
Ejemplo — predicción con trigrama
El
gato
come
___
ventana activa: gato + come → P(siguiente)
pescado
32 %
ratones
24 %
mucho
14 %
El límite →«El gato que compró mi vecina el martes come ___» depende de "gato", a nueve palabras. Un trigrama no llega: solo ve dos palabras atrás.
Modelo de estados ocultos · 1970s–2000s
HMM: las etiquetas como estados que generan las palabras
Los Modelos Ocultos de Markov tratan las categorías gramaticales como estados no observados que generan las palabras visibles. El algoritmo de Viterbi infiere la secuencia de estados más probable. Dominó el reconocimiento de voz y el etiquetado gramatical durante dos décadas.
Etiquetado gramatical (POS tagging)
Estados ocultos
DET
NOUN
VERB
DET
NOUN
Palabras observadas
El
gato
come
el
pescado
El límite →asume que cada palabra depende solo de su estado actual, no del contexto global. Las dependencias a distancia y la ambigüedad semántica quedan fuera de su alcance.
Modelo discriminativo · 2001–2010s
CRF: modelar la etiqueta directamente, con features a mano
Los Campos Aleatorios Condicionales mejoraron a los HMM al modelar directamente P(etiquetas | palabras) y permitir features arbitrarias del contexto. Fueron el estado del arte en reconocimiento de entidades hasta que las redes neuronales los desplazaron.
Reconocimiento de entidades (NER)
Ayer Alan Turing publicó en Cambridge
PERSONA
LUGAR / ORG
Otro
Features diseñadas a mano
Empieza con mayúscula
Palabra anterior es artículo
Sufijo de la palabra (-ing, -tion)
El límite →las features deben diseñarse a mano. No hay representación de significado: "banco" (institución) y "banco" (mueble) se distinguen por contexto, pero el CRF no tiene esa capa semántica.
El patrón común · 1980–2012
Lo que los tres enfoques no podían hacer
N-gramas, HMM y CRF fueron avances reales, cada uno sobre el anterior. Pero los tres compartían la misma limitación de fondo: el contexto se procesaba de forma local y las representaciones se diseñaban a mano. El Transformer abordó exactamente esos dos frentes.
Antes del Transformer
Contexto limitado a ventana local o estado actual
Features diseñadas manualmente por lingüistas
Sin representación semántica de las palabras
Un modelo distinto para cada tarea
El Transformer (2017)
Atención sobre el contexto completo de la secuencia
Representaciones aprendidas desde los datos
Embeddings con información semántica y posicional
Un modelo base, múltiples tareas con fine-tuning
La transición →el campo no abandonó la estadística, sino que dejó de necesitar que los humanos diseñaran las representaciones: eso también pasó a aprenderse.

5. El renacimiento neuronal: qué cambió antes de 2012

El resurgir del aprendizaje profundo no puede explicarse por una sola causa. Fue la convergencia de varios cambios que durante décadas habían estado incompletos.

Más datos, más cómputo, mejores referencias compartidas

Primero llegó la escala. La digitalización masiva de texto, imagen, audio y actividad en línea produjo volúmenes de datos que los enfoques anteriores rara vez habían podido aprovechar. En visión, ImageNet convirtió esa escala en una infraestructura concreta para investigación comparativa.

Después llegó el hardware adecuado. Las GPUs, diseñadas para computación paralela intensiva, encajaban muy bien con el álgebra lineal del entrenamiento neuronal. El cambio fue operativo: ciertos modelos que durante años habían parecido interesantes pero impracticables empezaron a ser entrenables en tiempos razonables.

También hicieron falta referencias compartidas para medir progreso. Sin benchmarks comunes, cada grupo puede parecer bueno en su propio problema. Con benchmarks, el progreso se vuelve visible, comparable y acumulativo.

El preludio inmediato de la explosión

Antes de AlexNet hubo un prólogo importante. Trabajos como Reducing the Dimensionality of Data with Neural Networks en 2006 y Greedy Layer-Wise Training of Deep Networks en 2007 ayudaron a reabrir el problema de entrenar redes profundas cuando todavía no era evidente que pudieran escalar bien con inicialización directa.

Ese periodo no resolvió todo, pero cambió el clima intelectual del campo. Las redes profundas dejaban de parecer una curiosidad histórica y empezaban a recuperar credibilidad empírica.

2012 como umbral

El cierre natural de este capítulo está en 2012. AlexNet entrenó una red profunda sobre 1,2 millones de imágenes del reto ImageNet, usando dos GPUs GTX 580 durante 5-6 días y varios elementos de diseño que ya apuntaban a la nueva fase.

El salto fue lo bastante grande como para cambiar la dirección del campo. No inaugura por sí solo toda la era actual, pero sí marca el umbral a partir del cual el aprendizaje profundo dejó de ser una línea prometedora entre varias y pasó a convertirse en el eje dominante del progreso en visión y, poco después, en voz y lenguaje.


6. Lo que este periodo dejó preparado

Al llegar a 2012, la IA había cambiado de forma profunda. No había abandonado del todo las reglas ni la lógica, pero ya no las trataba como el camino principal para construir sistemas competentes a gran escala. El centro de gravedad se había desplazado hacia modelos que aprenden a partir de datos, ajustan parámetros y mejoran a medida que crecen los ejemplos, el cómputo y la calidad de las representaciones.

Ese desplazamiento deja preparado el terreno del siguiente capítulo, donde la historia ya no gira tanto sobre si una máquina puede aprender de los datos, sino sobre lo que ocurre cuando ese aprendizaje encuentra suficiente escala.

Siguiente capítulo

Capítulo 4 — Escalar → — AlexNet, el Transformer y las leyes de escala: qué pasó cuando el aprendizaje encontró datos masivos, GPUs y arquitecturas nuevas.


7. Referencias

Fuentes base
Clave Fuente Descripción breve
R1 Newell & Simon (1956) — The Logic Theory Machine Primer gran ejemplo de razonamiento simbólico automatizado.
R2 Newell, Shaw & Simon (1959-1961) — GPS, A Program that Simulates Human Thought Programa emblemático del enfoque de búsqueda heurística.
R3 McDermott (1980) — R1: An Expert in the Computer Systems Domain Caso fundacional de XCON/R1 en configuración de sistemas VAX.
R4 Buchanan & Shortliffe (1984) — evaluación de MYCIN Rendimiento, desacuerdo entre expertos y límites de evaluación en sistemas expertos.
R5 JRC AI Watch (2020) — Historical Evolution of Artificial Intelligence Marco histórico de inviernos de la IA, auge simbólico y transición a ML.
R6 Vapnik — The Nature of Statistical Learning Theory Fundamentos de generalización y aprendizaje estadístico.
R7 Valiant (1984) — A Theory of the Learnable Formalización del aprendizaje sin programación explícita.
R8 Robbins & Monro (1951) — A Stochastic Approximation Method Antecedente clásico del aprendizaje por actualización estocástica.
R9 Rosenblatt (1958) — The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain Formulación clásica del perceptrón.
R10 Minsky & Papert (1969) — Perceptrons Análisis clásico de los límites del perceptrón de una capa.
R11 Rumelhart, Hinton & Williams (1986) — Learning representations by back-propagating errors Paper canónico de backpropagation en redes multicapa.
R12 Schmidhuber — historia de backprop Resumen histórico de antecedentes previos a 1986.
R13 Jurafsky & Martin — capítulo sobre n-gramas Marco clásico para modelos de lenguaje previos a transformers.
R14 Rabiner (1989) — A Tutorial on Hidden Markov Models Referencia clásica sobre HMM en secuencias y voz.
R15 Lafferty, McCallum & Pereira (2001) — Conditional Random Fields Introducción de CRF para secuencias etiquetadas.
R16 Deng et al. (2009) — ImageNet: A Large-Scale Hierarchical Image Database Dataset y benchmark clave en visión.
R17 Hinton & Salakhutdinov (2006) — Reducing the Dimensionality of Data with Neural Networks Reapertura del entrenamiento profundo en la fase previa al boom.
R18 Bengio et al. (2007) — Greedy Layer-Wise Training of Deep Networks Papel del preentrenamiento capa a capa en redes profundas.
R19 Krizhevsky, Sutskever & Hinton (2012) — ImageNet Classification with Deep Convolutional Neural Networks AlexNet y el umbral de 2012.
R20 LeCun, Bengio & Hinton (2015) — Deep Learning Revisión histórica y técnica del auge del aprendizaje profundo.