Capítulo 1 — Qué es IA¶

⏱️ Tiempo de lectura: 10 min

La inteligencia artificial no es una "mente" ni una entidad autónoma. Es una familia de sistemas construidos para optimizar una tarea a partir de datos, con un objetivo medible, y con capacidad de mejorar mediante algún mecanismo de "aprendizaje".

A veces estos sistemas clasifican, otras predicen, otras deciden y, en los casos más recientes, generan contenido.

Para no confundirnos entre productos, modelos y marketing, vamos a usar un marco simple que permite entender cualquier sistema de IA moderno.

Cualquier "sistema de IA" se entiende contestando:

¿Qué tipo de aplicación de IA es?: familia/tecnología que usa
¿Cómo aprende?: de dónde sale el "profesor"
¿Cómo se ajusta?: cómo cambia el modelo al entrenar

Vamos a resolver cada pregunta por orden.

1. El Marco General: IA, ML, DL y GenAI¶

Una forma efectiva de visualizar la jerarquía es la siguiente:

Inteligencia Artificial (IA): el concepto más amplio. Se refiere a máquinas o software que imitan capacidades asociadas a la inteligencia humana para razonar, resolver problemas o tomar decisiones. En la analogía del cuerpo humano, la IA sería el "cerebro".
Aprendizaje Automático (Machine Learning, ML): una rama de la IA que permite a los sistemas aprender de los datos y mejorar con la experiencia, en lugar de depender de reglas explícitas. En la analogía, el ML sería el "entrenamiento" de ese cerebro.
Aprendizaje Profundo (Deep Learning, DL): un tipo especializado de ML que utiliza redes neuronales de muchas capas para manejar datos complejos como imágenes, audio o lenguaje. Se asemeja a las neuronas y conexiones profundas del cerebro.
Inteligencia Artificial Generativa (GenAI): una parte del DL orientada a generar contenido (texto, imagen, audio, código).

IA / ML / DL describen la familia tecnológica del sistema. En esta serie, "generativa" se usa como etiqueta práctica para sistemas cuyo output principal es contenido nuevo, aunque técnicamente también remite a una familia de modelos generativos que modelan distribuciones y generan muestras.

IA

El paraguas: decidir y planificar

Marco amplio: técnicas para que un sistema razone, planifique o decida. Puede usar reglas, búsqueda, optimización o (a veces) aprendizaje. Si el foco es tomar decisiones/planes sin “entrenar un modelo”, suele ser IA.

Entrada típica

•Objetivo (lo que quieres lograr)

•Restricciones (tiempo, coste, reglas)

•Estado del entorno (mapa, recursos, condiciones)

Salida típica

•Decisión (qué hacer)

•Plan / ruta (pasos ordenados)

•Acción / política (cómo actuar en cada caso)

Capacidades

-Aprende de datos -Red neuronal -Genera contenido

🤖 Aspiradora robot: ruta eficiente
Planifica por dónde pasar para cubrir la casa evitando obstáculos.
♟️ Sudoku/ajedrez: mejor jugada
Explora opciones y elige la que maximiza una puntuación.
🗓️ Turnos en una tienda
Asigna horarios cumpliendo reglas y restricciones.
🚚 Reparto: ruta con varias paradas
Optimiza el orden de visita para minimizar tiempo o kilómetros.
📋 Soporte por reglas (FAQ)
Si detecta X, recomienda Y siguiendo un flujo definido.
🚦 Semáforos coordinados
Ajusta ciclos con lógica de control para reducir atascos.

Ya sabemos identificar qué familia tecnológica usa un sistema. La segunda pregunta es: ¿de dónde sale la señal que hace que aprenda?

2. ¿Cómo aprenden estos sistemas?¶

No son tipos de modelos, sino formas distintas de construir la señal de aprendizaje: en definitiva, de qué tipo de profesor usamos.

Supervisado / no supervisado / auto-supervisado / aprendizaje por refuerzo (RL) describen de dónde sale el profesor.

Supervisado

Alguien te dice la respuesta correcta

Si alguien ya sabe la respuesta, es supervisado.

Señal: etiquetas humanas Objetivo: acertar y

1Entradax + y

2Prediceŷ

3Comparaŷ vs y

4Ajustaminimiza error

Idea base

Aprende comparando su respuesta con la correcta.

Cuándo encaja

Cuando puedes conseguir etiquetas fiables y medir el fallo.

Qué devuelve

Una predicción: clase, valor o probabilidad.

Ejemplo

Spam, churn, riesgo de impago.

Ya sabemos de dónde viene el "profesor". La tercera pregunta cierra el marco: ¿qué cambia exactamente dentro del modelo cuando aprende? La respuesta depende del tipo de algoritmo, y entenderla es lo que distingue usar IA de entender IA.

3. Cómo se ajustan estos sistemas¶

Saber de dónde sale la señal que hace que aprenda (supervisado / auto-supervisado / RL) no basta.

La clave es entender qué y cómo se ajusta para que el modelo mejore.

3.1 El bucle universal de aprendizaje¶

Entrena y predice con los datos que tiene ahora.
Mide el error (o qué tan bien separa / agrupa).
Ajusta algo interno para reducir ese error.
Repite muchas veces.

Aprender = cambiar parámetros internos para equivocarse menos con datos parecidos a los del entrenamiento.

3.2 Por qué un modelo puede aprender hoy y servir mañana¶

Los modelos se entrenan con una muestra del mundo (datos disponibles hoy) y se espera que capture patrones generales que se mantengan en el futuro.

Si los datos futuros son parecidos, el modelo generaliza bien.
Si cambian mucho (deriva de datos), el rendimiento cae, conviene monitorizar y reentrenar.

Por eso interesa saber qué se está ajustando, porque cada familia de algoritmos aprende de una forma distinta. Además, este factor es clave, porque hace que los sistemas de IA no sean estáticos. Necesitan un mantenimiento y monitorización continua.

3.3 Qué se ajusta según el tipo de algoritmo¶

Piensa en cada algoritmo como una máquina con un tipo de parámetros. Entrenar es actualizar esos parámetros para que las predicciones cada vez se ajusten mejor.

1. Ajustan reglas / decisiones: Árboles de decisión, Random Forest, XGBoost¶

Qué cambia internamente:

Las preguntas que se hacen (qué variable mirar).
Los umbrales de esas preguntas (p. ej. "¿más de X?").
La estructura del árbol (qué ramas existen y hasta qué profundidad).

Es como construir un cuestionario: "si pasa A, pregunta B, y si no, pregunta C".

Ejemplo aprobación de préstamo:

Primera regla candidata: "¿ingresos mensuales por encima de X?": separa solicitudes con más capacidad de pago.
Luego: "¿ratio de deuda por debajo de Y?": refina la separación.
Entrenar = probar muchas preguntas/umbrales y quedarse con las que mejor separan solicitudes aprobables vs descartables.

Árboles de Decisión

Guía rápida

Primero preguntas; al final decides

Entrenar es elegir cortes. Predecir es bajar por una ruta hasta una hoja final.

Entrena: elige cortes útiles. Predice: cae a una hoja.

2. Ajustan probabilidades aprendidas por conteo: Naive Bayes¶

Qué cambia internamente:

Tablas de frecuencias/probabilidades, cuáles son las señales que aparecen más en cada clase.
Trata las señales como casi independientes dada la clase, para poder combinar evidencias de forma simple.

Es como llevar un recuento: "cuando es spam, ¿cuántas veces veo ‘gratis’?, ¿cuántas ‘urgente’?"

Ejemplo spam:

Si "gratis" aparece muy a menudo en spam y rara vez en no spam, eso empuja la predicción hacia spam.
Entrenar = actualizar esos conteos con muchos ejemplos y convertirlos en probabilidades.

Clasificación con Naive Bayes

Guía rápida

La predicción sale de juntar pistas sencillas

Cuenta qué palabras aparecen más a menudo y luego combina esas señales para decidir.

Primero aprende con ejemplos cortos. Después compara qué señales pesan más.

3. Ajustan grupos por similitud de características: Clustering, k-means¶

Qué cambia internamente:

La posición de los "centros" de los grupos (a cada centro se le denomina prototipo).

Nota: qué significa "parecido" depende de la distancia que uses y de cómo escales las variables.

Es como poner imanes en un mapa: cada dato va al imán más cercano, luego mueves los imanes al centro de cada grupo.

Ejemplo:

Agrupar clientes por comportamiento (frecuencia, gasto, canales) sin etiquetas previas, solo los datos crudos.
Entrenar = recolocar los centros para que los puntos queden lo más cerca posible de su grupo (clientes más parecidos, más juntos).

Algoritmos de Clustering

Guía rápida

Los grupos se recolocan hasta encajar con los clientes

Primero reparte cada cliente al grupo más cercano. Después recoloca cada grupo y repite hasta que casi no cambia.

Cada color reúne clientes parecidos. Probar más o menos grupos cambia el resultado.

4. Ajustan pesos numéricos (Redes neuronales)¶

Qué cambia internamente:

Los pesos (y sesgos) en las conexiones son números que indican cuánta influencia tiene cada señal de entrada al combinarse.
En redes profundas, hay millones de pesos repartidos en capas.

Cada neurona calcula una suma ponderada y luego aplica una función de activación, que le permite al sistema aprender conceptos no lineales.

Profundización técnica (opcional)

Dos roles típicos de la función de activación:

En capas internas: aporta no linealidad (capacidad).
En la salida: convierte la puntuación en algo interpretable (p. ej., probabilidad con sigmoid/softmax).

Por qué importa la función de activación:

Sin activación, varias capas seguidas serían una sola transformación lineal, así que el modelo sería demasiado rígido.
La activación introduce no linealidad, que permite capturar relaciones "si pasa A y B, pero no C…", curvas, umbrales suaves, etc.
También afecta al entrenamiento: el tipo de activación influye en lo fácil/difícil que es ajustar pesos en capas profundas.

Las 4 piezas mínimas para realizar los ajustes:

Función de activación: sirve para que los sistemas aprendan conceptos no lineales.
Función de pérdida: una medida del "fallo" (cuánto se equivocó).
Propagación hacia atrás (Backpropagation): reparte la culpa del error entre pesos (qué pesos contribuyeron más al fallo).
Optimizador: decide cuánto mover cada peso en cada paso (pasos pequeños, repetidos).

Ejemplo spam:

Señales: "gratis", "urgente", "muchos enlaces"…
La red combina señales con pesos, pasa por activaciones y produce una puntuación/probabilidad.
Si falla, ajusta pesos/sesgos para que la próxima vez "gratis" pese más o menos, etc.

Paso 1 · 1 neurona

Una sola neurona aprende relaciones lineales

Ajusta únicamente un peso (pendiente) y un sesgo (desplazamiento). Suficiente cuando los datos siguen una línea recta.

Temperatura: °C → °F · puntos reales · — curva ajustada

Qué ajusta 1 peso + 1 sesgo → 2 parámetros

Límite Solo puede aprender líneas rectas

Época — una pasada completa por todos los datos de entrenamiento. Pérdida — qué tan alejadas están las predicciones de los valores reales; cuanto más baja, mejor ajuste.

3.4 Para qué tipo de datos sirve cada familia¶

No todas las familias son igual de adecuadas para cualquier problema. El tipo de dato es muchas veces el primer filtro de decisión:

Familia	Datos donde funciona bien	Dónde falla o no es la primera opción
Árboles (Decision Tree, Random Forest, XGBoost)	Tabular estructurado: números, categorías, variables mixtas. El favorito para datos de negocio y competiciones de Kaggle con tablas.	Imágenes, audio, texto crudo sin preprocesar.
Naive Bayes	Texto (bolsa de palabras, frecuencias de tokens), datos categóricos con pocas correlaciones entre variables. Muy rápido con poco dato.	Datos continuos muy correlacionados entre sí; relaciones complejas entre variables.
K-means (clustering)	Numérico continuo donde la distancia euclidiana tiene sentido: coordenadas, métricas de comportamiento escaladas.	Texto, datos de alta dimensión sin reducción previa, variables categóricas puras.
Redes neuronales	Imágenes, audio, texto, series temporales, vídeo. Brillan cuando el volumen de datos es grande y el patrón es complejo.	Datos tabulares pequeños: suelen ganar los árboles con menos coste computacional.

Estas cuatro familias ilustran el espectro de mecanismos de ajuste, no todo el mapa. Existen decenas más: SVMs, regresión logística/lineal, modelos de mezclas gaussianas, redes bayesianas, modelos de series temporales (ARIMA, Prophet), métodos de ensemble, etc. Elegir algoritmo empieza siempre por entender el tipo de dato y el objetivo del problema.

Estos tres ejes (familia tecnológica, tipo de aprendizaje, mecanismo de ajuste) permiten describir cualquier sistema de IA moderno. Pero todos comparten algo: de dónde viene la lógica que los hace funcionar.

4. Software clásico vs IA¶

Todo lo anterior describe una forma distinta de definir la lógica de una solución. No cambia cómo se escribe el código, sino de dónde viene la lógica que hace que el sistema funcione.

En el software clásico:

Datos de entrada + reglas escritas por humanos → salida

Ejemplo: convertir Fahrenheit a Celsius con una fórmula fija.

El programador escribe explícitamente la regla: C = (F - 32) x 5/9
Si entra el mismo valor en Fahrenheit, siempre sale el mismo valor en Celsius.

En IA:

Datos de entrada + datos de salida → reglas aprendidas
El "algoritmo", la fórmula matemática, emerge del entrenamiento.

Ejemplo: usar muchos pares (Fahrenheit, Celsius) para que el sistema aprenda la conversión.

Ya no escribes la fórmula exacta a mano.
El modelo ajusta parámetros y aprende una regla aproximada que luego generaliza a nuevos valores.

Este es el principio base del llamado Software 2.0: la lógica ya no se escribe, se aprende.

Esto no cambia todavía cómo se construye software, sino cómo se construyen soluciones usando IA. El salto en la forma de desarrollar software llegará con los LLMs.

Este cambio de paradigma no ocurrió de golpe. Hubo décadas de avances, fracasos y saltos que explican dónde estamos hoy y hacia dónde vamos.

5. Grandes hitos¶

No hace falta memorizar toda la cronología. Lo importante es ver qué cambió en cada ola.

Fecha	Gran hito	Qué cambia
1950	Turing (paper)	Pone el marco conceptual de "inteligencia en máquinas".
1955–1956	Conferencia de Dartmouth (propuesta)	Nace formalmente el campo de la IA.
1958–1959	Perceptrón y primeras demostraciones de aprendizaje automático (paper · Rosenblatt, paper · Samuel)	Aparece la idea de aprender desde datos, no solo desde reglas.
Década de 1980	Sistemas expertos (caso XCON)	Primera ola empresarial de IA basada en reglas.
1986	Backpropagation (paper)	Se vuelve viable entrenar redes neuronales multicapa.
1997	Deep Blue (IBM)	Una IA especializada derrota al campeón del mundo de ajedrez y hace visible el poder de la IA estrecha.
2012	AlexNet + ImageNet (paper, ILSVRC)	Arranca la era moderna del deep learning escalado con datos y GPUs.
2017	Transformer — "Attention is all you need" (paper)	Aparece la arquitectura base de los modelos modernos de lenguaje.
2020–2022	GPT-3, AlphaFold y ChatGPT (artículo · GPT-3, CASP14, paper Nature · AlphaFold, anuncio · ChatGPT)	Llegan los modelos fundacionales, el impacto científico directo y el uso masivo.

Si quieres una imagen mental todavía más simple, léelo así:

reglas -> aprendizaje estadístico -> deep learning -> modelos fundacionales -> IA útil a gran escala

Toda esa investigación culmina en sistemas capaces y eficientes. Pero un modelo capaz no es todavía un producto. Para que un sistema de IA funcione de forma fiable en el mundo real hace falta un ciclo de ingeniería completo.

6. MLOps: el ciclo completo para que una IA funcione en el mundo real¶

MLOps es la parte "de ingeniería" que hace que una IA funcione de forma fiable en el mundo real: no solo hoy, también dentro de 3 meses cuando cambien los datos, el mercado o el comportamiento de los usuarios. (Google Cloud) La idea clave:

Un modelo entrenado ≠ una IA en producción. En producción necesitas un ciclo completo: datos → entrenamiento → despliegue → monitorización → mejora.

La forma más clara de entender MLOps es verlo como una cadena de 8 pasos. Si falta uno, normalmente tienes una demo, no un producto.

Datos (capturar): recoges señales del mundo real (eventos, transacciones, documentos, logs).
Datos (preparar): limpias y conviertes datos en variables útiles (lo que el modelo "entiende").
Entrenar: el modelo aprende patrones con ejemplos históricos.
Evaluar: compruebas que funciona "lo suficiente" antes de tocar producción.
Versionar: guardas qué modelo es, con qué datos/versión se entrenó (trazabilidad).
Desplegar: lo pones a funcionar (API o batch), idealmente de forma gradual.
Monitorizar: miras si el mundo cambia (datos), si el sistema va bien (latencia/errores) y si el rendimiento cae.
Feedback y mejora: cuando llega la "verdad" (etiquetas reales), corriges, reentrenas o haces rollback.

MLOps en una mirada Entrenar no basta: hace falta ciclo completo.

Primero preparas y entrenas. Después despliegas, vigilas y vuelves a iterar.

Paso

Descripción

Ejemplo (fraude) ...

Qué sale de este paso ...

Si no se implementa correctamente ...

Siguiente lectura

El capítulo siguiente profundiza en el tipo de sistema más disruptivo de la última década: Capítulo 2 — Qué es IA Generativa →

7. Referencias¶

Fuentes base

Clave	Fuente	Descripción breve
R1	OECD — Explanatory Memorandum on the Updated OECD Definition of an AI System (OECD)	Aclara la definición moderna de sistema de IA.
R2	ISO/IEC 22989:2022 — Artificial intelligence — Concepts and terminology (ISO)	Vocabulario y conceptos base del campo.
R3	Tom M. Mitchell — Machine Learning (CMU School of Computer Science)	Define formalmente aprendizaje con E/T/P.
R4	Y. LeCun, Y. Bengio, G. Hinton (2015) — Deep Learning (Nature)	Panorama corto de la revolución del deep learning.
R5	I. Goodfellow, Y. Bengio, A. Courville — Deep Learning (Deep Learning Book)	Base técnica de redes neuronales modernas.
R6	R. S. Sutton, A. G. Barto — Reinforcement Learning: An Introduction (Incomplete Ideas)	Referencia clásica para aprendizaje por refuerzo.
R7	R. Wirth, J. Hipp — CRISP-DM: Towards a Standard Process Model for Data Mining (cs.unibo.it)	Proceso estándar para proyectos de datos y ML.
R8	D. Sculley et al. (2015) — Hidden Technical Debt in Machine Learning Systems (NeurIPS Papers)	Explica por qué un modelo no basta como sistema real.

Referencias de hitos

Fuentes de hitos

Hito	Fuente	Descripción breve
H1	Alan Turing — Computing Machinery and Intelligence (paper)	Marco conceptual sobre inteligencia en máquinas.
H2	Dartmouth Summer Research Project on Artificial Intelligence (1955) (propuesta)	Acta fundacional del campo de la IA.
H3	Frank Rosenblatt — The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain (paper)	Primer gran paso hacia aprendizaje desde datos.
H4	Arthur Samuel — Some Studies in Machine Learning Using the Game of Checkers (paper)	Primera demostración práctica de que una máquina puede aprender a jugar mejor que su programador.
H5	XCON / sistemas expertos en producción en Digital Equipment Corporation (caso XCON)	Auge industrial de la IA basada en reglas.
H6	Rumelhart, Hinton, Williams — Learning representations by back-propagating errors (paper)	Hace viable entrenar redes neuronales multicapa.
H7	IBM — Deep Blue vs Kasparov (1997) (IBM)	Demuestra el poder de una IA especializada en un dominio concreto.
H8	AlexNet — ImageNet Classification with Deep Convolutional Neural Networks (2012) (paper)	Dispara la era moderna del deep learning visual.
H9	ImageNet / ILSVRC (ILSVRC)	Benchmark que acelera el progreso en visión por computador.
H10	AlphaGo (2016) — Mastering the game of Go with deep neural networks and tree search (paper Nature)	Combina deep learning y búsqueda: primer sistema que supera a los mejores humanos en Go.
H11	AlphaGo vs Lee Sedol (2016) (página DeepMind)	El hito público que visibiliza ese salto técnico ante la opinión global.
H12	Attention Is All You Need — Transformer (2017) (paper)	Arquitectura base de los modelos actuales de lenguaje e imagen.
H13	BERT (2019) — Pre-training of Deep Bidirectional Transformers for Language Understanding (paper)	Consolida el preentrenamiento bidireccional en NLP.
H14	GPT-3 (2020) — Language Models are Few-Shot Learners (artículo OpenAI)	Escala los modelos fundacionales de lenguaje a un nivel sin precedentes.
H15	CASP14 / AlphaFold (2020–2021) (CASP14, paper Nature, blog DeepMind)	Resuelve el problema del plegamiento de proteínas: primer impacto científico directo de la IA a esa escala.
H16	ChatGPT (2022) (anuncio OpenAI)	Populariza la IA generativa a gran escala ante el público general.
H17	University of Reading — Turing Test 2014 (artículo)	Referencia divulgativa sobre el debate del test de Turing.
H18	AlphaGo — The Movie (2017, dir. Greg Kohs) (documental · YouTube)	Documental que narra desde dentro la preparación del enfrentamiento contra Lee Sedol. Recomendado para entender el impacto humano y técnico del hito.
H19	AlphaFold: The making of a scientific breakthrough — DeepMind (2021) (vídeo · YouTube)	Vídeo documental de DeepMind sobre el proceso y el impacto de AlphaFold. Recomendado antes de leer el paper.

Capítulo 1 — Qué es IA¶

1. El Marco General: IA, ML, DL y GenAI¶

2. ¿Cómo aprenden estos sistemas?¶

Alguien te dice la respuesta correcta

Nadie te da la respuesta

El propio dato fabrica su profesor

Aprendes por premio o castigo

3. Cómo se ajustan estos sistemas¶

3.1 El bucle universal de aprendizaje¶

3.2 Por qué un modelo puede aprender hoy y servir mañana¶

3.3 Qué se ajusta según el tipo de algoritmo¶

1. Ajustan reglas / decisiones: Árboles de decisión, Random Forest, XGBoost¶

Primero preguntas; al final decides

2. Ajustan probabilidades aprendidas por conteo: Naive Bayes¶

La predicción sale de juntar pistas sencillas

3. Ajustan grupos por similitud de características: Clustering, k-means¶

Los grupos se recolocan hasta encajar con los clientes

4. Ajustan pesos numéricos (Redes neuronales)¶

Una sola neurona aprende relaciones lineales

Una capa oculta permite aprender curvas

Más capas = patrones cada vez más complejos

3.4 Para qué tipo de datos sirve cada familia¶

4. Software clásico vs IA¶

5. Grandes hitos¶

6. MLOps: el ciclo completo para que una IA funcione en el mundo real¶

Paso

7. Referencias¶