Large Language Models (LLMs)¶

Un Large Language Model es una red neuronal entrenada sobre volúmenes masivos de texto con un único objetivo: predecir qué token sigue a una secuencia dada. Lo que parece una tarea simple produce, a suficiente escala, sistemas capaces de razonar, traducir, resumir y generar código. La clave está en el volumen de parámetros (los pesos ajustables de la red), que en los modelos más grandes supera los cientos de miles de millones, y en la arquitectura Transformer, que permite procesar relaciones entre palabras a cualquier distancia del texto. A diferencia de los sistemas de IA tradicionales, que aprenden reglas para una tarea concreta, los LLMs aprenden representaciones generales del lenguaje que luego se adaptan a tareas específicas con un mínimo de datos adicionales.

En qué series aparece¶

Fundamentos de IA e IA generativa

Define qué es la IA, qué distingue a la generativa y qué significa que un modelo "aprenda". Base conceptual antes de entrar en arquitecturas.

Leer →

De las cavernas a la AGI

Explica la historia de aprender de datos, la revolución del aprendizaje profundo, el salto del Transformer y por qué la escala cambió el campo.

Leer →

Multimodalidad en IA generativa

Muestra cómo los LLMs se extienden más allá del texto para procesar imagen, audio y vídeo dentro de una misma arquitectura.

Leer →

Preguntas frecuentes¶

¿En qué se diferencia un LLM de una IA tradicional? La IA tradicional aprende a resolver una tarea concreta (clasificar imágenes, detectar spam) con datos etiquetados para esa tarea. Un LLM aprende representaciones generales del lenguaje a partir de texto sin etiquetar y después se adapta a docenas de tareas distintas sin reentrenarse desde cero.

¿Los LLMs entienden el lenguaje? Depende de qué se entienda por "entender". Los LLMs no tienen representaciones simbólicas del significado como las que tendría un sistema lógico, pero sus representaciones internas capturan relaciones semánticas, analogías y estructuras gramaticales con suficiente fidelidad como para ejecutar tareas complejas de razonamiento lingüístico. El debate sobre si eso constituye comprensión genuina sigue abierto en la comunidad.

¿Qué es el preentrenamiento? El preentrenamiento es la fase en que el modelo aprende a predecir texto a partir de un corpus enorme (libros, web, código) sin instrucciones específicas. El resultado es un modelo base que captura conocimiento general del lenguaje. Después viene el ajuste fino (fine-tuning) o la alineación con instrucciones humanas (RLHF), que orientan ese conocimiento hacia tareas útiles.

¿Por qué los LLMs cometen errores? Los LLMs generan el texto más probable según sus pesos, no el más verdadero. Eso significa que pueden producir afirmaciones plausibles pero incorrectas (las llamadas "alucinaciones") cuando el texto de entrenamiento no cubre bien un tema, o cuando la tarea requiere razonamiento preciso que la predicción de tokens no garantiza.

¿Cuántos parámetros tiene un LLM grande? Los modelos más grandes publicados hasta 2025 tienen entre 70.000 millones y varios billones de parámetros. GPT-3 tenía 175.000 millones. Llama 3 llega a 405.000 millones en su variante mayor. Sin embargo, el número de parámetros no es el único determinante del rendimiento: la calidad de los datos de entrenamiento y las técnicas de alineación importan tanto o más.