Saltar a contenido

IA Generativa

La IA generativa engloba los modelos capaces de producir contenido nuevo: texto, imágenes, audio, vídeo o código. Lo que los distingue de la IA discriminativa (que clasifica o predice a partir de datos existentes) es que aprenden la distribución de los datos de entrenamiento y pueden muestrear de esa distribución para crear ejemplos que no existen en el corpus original. Un modelo de lenguaje aprende cómo se distribuye el texto humano; uno de imágenes aprende cómo se distribuyen los píxeles en fotografías reales. A partir de esa representación interna, ambos generan contenido nuevo bajo condiciones (un prompt, una descripción, un estilo) en lugar de limitarse a recuperar o transformar lo que ya existe.

En qué series aparece

Preguntas frecuentes

¿En qué se diferencia la IA generativa de la IA tradicional? La IA tradicional (discriminativa) toma datos de entrada y produce una etiqueta o predicción: "este correo es spam", "este tumor es maligno". La IA generativa produce contenido nuevo: un párrafo, una imagen, una melodía. La diferencia no es solo de aplicación sino de arquitectura: los modelos generativos aprenden a representar cómo se distribuyen los datos, mientras que los discriminativos aprenden a separar categorías.

¿La IA generativa solo genera texto? No. El término cubre modelos de texto (LLMs como GPT o Gemini), modelos de imagen (Stable Diffusion, DALL-E, Midjourney), modelos de audio (MusicGen, Bark), modelos de vídeo (Sora, Kling) y modelos de código (Codex, Copilot). Lo que tienen en común es que todos aprenden a producir salidas del mismo tipo de datos con los que se entrenaron.

¿ChatGPT es IA generativa? Sí. ChatGPT es una interfaz sobre GPT-4 (o versiones posteriores), que son LLMs generativos entrenados para producir texto. La conversación es posible porque el modelo genera respuestas token a token, condicionadas por el historial del chat.

¿Cómo genera imágenes la IA? Los modelos de difusión (como Stable Diffusion) aprenden a revertir un proceso de añadir ruido gaussiano a imágenes reales. Durante la generación, parten de ruido puro y aplican pasos iterativos de "desruidización" guiados por un prompt de texto, hasta obtener una imagen coherente. DALL-E 3 combina este proceso con un LLM que reformula el prompt antes de pasarlo al modelo de imagen.