Razonamiento en LLMs¶

El razonamiento en modelos de lenguaje no es una propiedad binaria sino un espectro: desde la predicción de texto que sigue patrones hasta procesos que involucran múltiples pasos de verificación, generación de candidatos y corrección explícita. La idea central de los modelos razonadores modernos es que el razonamiento puede mejorarse asignando más cómputo en el momento de la inferencia (test-time compute) en lugar de solo durante el entrenamiento. Eso convierte el tiempo de ejecución en una variable de diseño: puedes pagar más pasos, más muestras o más verificación para mejorar la calidad de la respuesta, con un coste directo en latencia y coste por consulta. Esa palanca existe porque el razonamiento es un proceso con pasos, y cada paso adicional puede corregir errores de los anteriores. Los fallos de estos sistemas no son aleatorios: tienden a tomar atajos cuando los hay, a seguir la corriente del usuario (sycophancy) y a derivar del objetivo original cuando la cadena de pensamiento se alarga demasiado.

En qué series aparece¶

Modelos razonadores

Serie completa dedicada al razonamiento en LLMs: qué significa razonar, cómo se ven los fallos sistemáticos, qué es el test-time compute y qué costes introduce en producción.

Leer →

De las cavernas a la AGI

El capítulo 5 cubre qué ocurre más allá del escalado del Transformer: memoria en inferencia, búsqueda y las primeras señales hacia modelos del mundo con capacidades de razonamiento extendido.

Leer →

Preguntas frecuentes¶

¿Qué significa razonar para un LLM? Un LLM no razona como un sistema formal de lógica: genera tokens probables dado un contexto. Pero cuando ese proceso se estructura en pasos intermedios explícitos (chain of thought), el modelo puede corregir errores en pasos anteriores antes de llegar a la respuesta final. Esa capacidad de autocorrección secuencial es lo que el campo llama razonamiento, con independencia de si hay comprensión real detrás.

¿Qué es el test-time compute? El test-time compute (cómputo en tiempo de inferencia) es la idea de destinar más pasos de cómputo a generar la respuesta en lugar de solo aumentar el tamaño del modelo. Las palancas concretas son: cadenas de pensamiento más largas, generación de múltiples candidatos con selección posterior, verificación por un modelo separado (process reward model) o iteraciones de refinamiento. El resultado es que el coste de la inferencia se vuelve variable según la dificultad de la consulta, a diferencia del coste fijo del preentrenamiento.

¿Qué es chain of thought? Chain of thought (cadena de pensamiento) es una técnica en la que el modelo genera pasos intermedios de razonamiento explícitos antes de dar la respuesta final. Se puede inducir con ejemplos (few-shot) o con instrucciones directas (zero-shot, como "piensa paso a paso"). Su efecto es especialmente visible en tareas que requieren varios pasos de lógica o aritmética: el modelo que razona en voz alta comete menos errores que el que responde directamente.

¿Cuáles son los fallos sistemáticos de los modelos razonadores? Los principales son tres: los atajos (el modelo toma el camino de mínima resistencia cuando hay un patrón superficial que parece funcionar), la sycophancy (el modelo ajusta su respuesta para coincidir con lo que el usuario parece querer escuchar, aunque sea incorrecto) y la deriva de objetivo (en cadenas de pensamiento largas, el modelo puede alejarse de la tarea original). Estos fallos no son aleatorios: emergen de cómo se entrena el modelo con feedback humano.

¿Qué es el overthinking en IA? El overthinking (sobrepensamiento) ocurre cuando un modelo razonador genera cadenas de pensamiento desproporcionadamente largas para la dificultad real de la consulta, sin mejorar la calidad de la respuesta. El resultado práctico es latencia innecesaria y coste extra. Es uno de los riesgos documentados de los modelos con test-time compute extendido: más pasos no siempre significa mejor respuesta.

¿Qué diferencia a o1 de los LLMs convencionales? o1 (OpenAI) fue el primer modelo de producción que expuso explícitamente el test-time compute como mecanismo central: el modelo "piensa" durante un tiempo configurable antes de responder. A diferencia de los LLMs convencionales, cuyo coste de inferencia es fijo por token de salida, o1 tiene un coste variable que depende del tiempo de razonamiento asignado. DeepSeek R1 replicó resultados similares con un enfoque de entrenamiento distinto (RLVR con GRPO), abriendo el debate sobre qué parte del rendimiento viene de la arquitectura y qué parte del proceso de entrenamiento.