Saltar a contenido

Capítulo 4 — AGI: Inteligencia Artificial General

⏱️ Tiempo de lectura: 10 min

Prerrequisitos

Este capítulo cierra la serie. Para sacar el máximo provecho, conviene haber leído los tres capítulos anteriores: Capítulo 1 — Qué es IA, Capítulo 2 — Qué es IA Generativa y Capítulo 3 — IA vs IA Generativa.

Un detector de fraude no puede explicarte termodinámica, un modelo de visión por computador no sabe jugar al ajedrez y un LLM genera texto fluido pero no puede conducir un coche, reparar un grifo ni recordar lo que aprendió en la conversación de ayer. Imaginemos ahora un sistema que tuviese todas estas capacidades a la vez.

La Inteligencia Artificial General (AGI) es el término para un sistema capaz de rendir al nivel humano competente en una gama amplia de tareas cognitivas, sin rediseñarse específicamente para cada una y con capacidad de transferir lo aprendido entre dominios.

El problema es que nadie se pone de acuerdo en qué significa exactamente eso.


1. El problema de la definición

"AGI" no es un término técnico con una definición consensuada. Es un término de campo que diferentes grupos usan de formas distintas, a veces incompatibles. No existe un paper que diga "esto es AGI, esto no lo es".

Las preguntas de fondo no tienen respuesta única: ¿importa que el sistema pueda hacer cualquier tarea? ¿Que supere a los humanos en valor económico? ¿Que pueda mejorarse a sí mismo? ¿Que tenga algo parecido a comprensión real?

Dependiendo de la definición que uses, AGI podría estar a 2 años, a 20, o ser indefinible en los términos actuales.


2. Las definiciones en disputa

2.1 La definición cognitiva

La definición más antigua: AGI es un sistema que puede realizar cualquier tarea intelectual que pueda realizar un ser humano. Viene de la comunidad de investigación de IA de los años 50-80, e incluye razonamiento abstracto, aprendizaje en dominios completamente nuevos, sentido común, planificación a largo plazo y comprensión del lenguaje en contexto real.

El problema con esta definición es que "cualquier tarea intelectual humana" es un listón difuso. Los humanos también tienen sesgos, límites y fallos. ¿Con qué humano comparamos? ¿Bajo qué condiciones?

2.2 La definición económica

OpenAI define AGI como "sistemas altamente autónomos que superan a los humanos en la mayor parte del trabajo económicamente valioso" (OpenAI Charter). A diferencia de la definición cognitiva, esta es medible: puede contrastarse contra benchmarks laborales y de productividad.

El cambio de foco es significativo: de "inteligencia general" a "utilidad económica general", un listón diferente y más bajo en algunos aspectos. El problema es que una parte sustancial del trabajo cognitivo con valor económico podría transformarse o automatizarse sin que el sistema alcance el listón de la definición clásica. ¿Sería eso AGI?

2.3 El espectro de capacidades: seis niveles

DeepMind propuso tratar la AGI no como un umbral binario sino como un espectro de seis niveles de capacidad, numerados del 0 al 5:

Nivel Descripción Referencia aproximada
0. Sin IA Sin capacidad autónoma Calculadora
1. IA emergente Igual o mejor que un no experto en algunas tareas ChatGPT, según sus autores, en algunas tareas concretas
2. IA competente Igual o mejor que el 50% de trabajadores adultos
3. IA experta Igual o mejor que un experto humano en la mayoría de tareas de su dominio Modelos de diagnóstico médico en dominios específicos
4. IA virtuosa Igual o mejor que el mejor experto humano en prácticamente todo
5. Superinteligencia (ASI) Supera a todos los humanos en todas las tareas cognitivas

Este marco reconoce que la transición no es de golpe. En el paper original (2023), DeepMind marcó los niveles Competent AGI y superiores como no alcanzados por ningún sistema público. El marco también distingue rendimiento de generalidad: un sistema puede tener rendimiento de nivel alto en una tarea concreta sin demostrar generalidad equivalente (arXiv).

2.4 La perspectiva de la seguridad

Para los investigadores de seguridad en IA, la línea crítica no es "mejor que humanos en tareas cognitivas" sino la capacidad de mejora recursiva: un sistema que mejora su propio diseño para producir sistemas sucesivamente más capaces. Un sistema podría superar a todos los humanos en todas las tareas sin cruzar ese umbral, pero si lo cruzara, la velocidad del cambio excedería la capacidad humana de entender y controlar lo que está pasando. Los marcos operacionales actuales van más allá: Anthropic define umbrales específicos en función de la capacidad de automatizar el trabajo de un investigador de IA, desde tareas acotadas hasta ciclos completos de investigación autónoma (Anthropic RSP).

La ambigüedad en la definición no es descuido. Refleja que comunidades distintas intentan capturar propiedades distintas del mismo ente.

Espectro de capacidades: cinco niveles
DeepMind propuso tratar la AGI no como un umbral binario sino como un espectro. Ya estamos avanzando por los niveles, con distintos sistemas en distintos lugares según la tarea.
Nivel 0
Sin IA

Sin capacidad autónoma. Ejecuta exactamente lo que se le programa.

Calculadora, hoja de cálculo
Nivel 1
IA emergente

Igual o mejor que un no experto en algunas tareas concretas. Generaliza con muy pocos ejemplos.

Superado: GPT-3 y modelos 2020-2022
Nivel 2→3
IA competente → IA experta
Frontera 2025-2026

Igual o mejor que el 50% de trabajadores adultos en la mayoría de tareas cognitivas. En dominios específicos (software, matemáticas, análisis de texto), ya al nivel de experto humano.

GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro — según tarea concreta
Nivel 3
IA experta (general)

Igual o mejor que un experto humano en la mayoría de tareas de cualquier dominio, incluyendo razonamiento físico, causal y tácito.

AlphaFold (plegamiento de proteínas) — experto en dominio único; no alcanzado de forma general
Nivel 4
IA virtuosa

Igual o mejor que el mejor experto humano en prácticamente cualquier tarea cognitiva.

No alcanzado
Nivel 5
Superinteligencia

Supera a todos los humanos en todas las tareas cognitivas. Potencial de mejora recursiva.

No alcanzado. Sin solución conocida al problema de alineación.
Por que no hay consenso
Definición cognitiva clásica

Un sistema que puede realizar cualquier tarea intelectual humana. Problema: "cualquier tarea" es un listón difuso.

Definición económica (OpenAI)

IA que supera a la mayoría de humanos en la mayoría de tareas con valor económico. Más medible, pero listón distinto.

Perspectiva de seguridad

La línea crítica es la mejora recursiva: un sistema que puede mejorar su propio diseño de forma autónoma y acelerada.

La ambigüedad no es descuido. Refleja que comunidades distintas intentan capturar propiedades distintas con el mismo término.

3. Qué sabemos que no es AGI hoy

Los modelos actuales tienen capacidades que impresionan tanto a quienes los usan por primera vez como a quienes llevan años en el campo. También tienen limitaciones fundamentales que conviene entender con precisión.

Lo que hacen bien hoy

  • Comprensión y generación lingüística a nivel experto en muchos dominios de su entrenamiento.
  • Razonamiento sobre textos complejos dentro de una ventana de contexto.
  • Generalización con muy pocos ejemplos: aprender de tres casos en el prompt y generalizar.
  • Codificación y resolución de errores reales: los modelos frontier alcanzan puntuaciones muy altas en benchmarks de software como OSWorld y SWE-bench, aunque SWE-bench Verified ya no se considera representativo de la frontera actual por contaminación de datos (OpenAI).
  • Uso del ordenador y navegación web: Claude Sonnet 4.6, GPT 5.4 operan interfaces gráficas y ejecutan flujos completos en el navegador con ventana de contexto de 1M tokens (Anthropic).
  • Síntesis de conocimiento entre dominios cuando el conocimiento relevante estaba en los datos de entrenamiento.
  • Matemáticas y ciencias de olimpiada: los modelos más capaces alcanzan medalla de oro en IMO, IPhO e IChO y superan el 90% en benchmarks de ciencia a nivel PhD (Gemini 3 Deep Think blog). Los resultados de ARC-AGI-2 están verificados por ARC Prize Foundation, pero los de olimpiadas y HLE son resultados reportados por los propios laboratorios.

Lo que les falta

  • Razonamiento causal robusto: confunden correlación con causalidad y fallan en contrafactuales.
  • Conocimiento del mundo físico: su "comprensión" proviene de texto, no de interacción directa con objetos y consecuencias.
  • Memoria persistente real: cada conversación empieza desde cero salvo arquitecturas con memoria explícita.
  • Generalización fuera de lo conocido: funcionan bien en dominios del entrenamiento y fallan de forma impredecible en variaciones alejadas de lo visto.
  • Saber cuándo no saben: no reconocen con fiabilidad los límites de su propio conocimiento, de ahí las alucinaciones.

Superar el test de Turing en una conversación corta no implica inteligencia general. Un modelo puede generar texto que parece humano durante minutos y fallar en problemas de razonamiento causal o de sentido común que un humano sin entrenamiento específico resolvería sin dificultad.

La diferencia entre comprensión lingüística y comprensión del mundo

Una de las discusiones más activas en el campo es si los LLMs "comprenden" o simplemente producen patrones estadísticos muy sofisticados sobre texto.

El argumento de que no comprenden: el modelo no tiene acceso al mundo, solo a texto sobre el mundo. Puede completar frases sobre física sin entender por qué una pelota cae. Puede describir el dolor sin haberlo sentido. La representación lingüística no equivale a la representación conceptual.

El argumento de que algo parecido a la comprensión emerge: los modelos generalizan en formas que no se explican por memorización pura. Sus representaciones internas capturan estructura semántica. Algunos experimentos muestran que los modelos tienen representaciones internas de conceptos como verdad/falsedad, espacio o tiempo.

El debate no está cerrado y tiene consecuencias directas sobre qué esperar de seguir escalando: si la comprensión emerge del lenguaje a escala, escalar podría acercarse a AGI. Si requiere algo más (experiencia directa con el mundo, interacción causal con objetos y consecuencias), escalar solo no bastaría.

Los LLMs de hoy: qué hacen bien y qué les falta
Superar el test de Turing en una conversación corta no implica inteligencia general. Ambas columnas importan para entender qué esperar.
Lo que hacen bien hoy
Comprensión y generación lingüística

A nivel experto en muchos dominios, dentro de su contexto de entrenamiento. Redacción, análisis, síntesis.

Razonamiento sobre textos complejos

Dentro de la ventana de contexto, puede seguir argumentos, identificar contradicciones y extraer implicaciones.

Generalización con pocos ejemplos

Aprende de tres casos en el prompt y generaliza sin haberse entrenado específicamente para esa tarea.

Codificación y matemáticas formales

Alta capacidad en generación de código, depuración y razonamiento matemático formal, con variabilidad según el tipo de problema.

Síntesis entre dominios

Conecta conceptos de áreas distintas cuando el conocimiento relevante estaba en los datos de entrenamiento.

Lo que les falta
Razonamiento causal robusto

Confunden correlación con causalidad. Les cuesta razonar de forma fiable sobre contrafactuales: "qué habría pasado si..."

Conocimiento del mundo físico

No tienen experiencia directa con el mundo. Su "comprensión" proviene de texto, no de acción e interacción con objetos reales.

Memoria persistente real

Cada conversación empieza desde cero salvo arquitecturas con memoria explícita. No acumulan experiencia entre sesiones.

Generalización fuera de lo conocido

Funcionan bien en dominios presentes en el entrenamiento. Fallan de forma impredecible en variaciones que se alejan de lo visto.

Saber cuándo no saben

No reconocen con fiabilidad los límites de su propio conocimiento. De ahí las alucinaciones: el modelo produce la continuación más probable sin señalizar que está fuera de su competencia.

Debate abierto

Si la comprensión emerge del lenguaje a escala, seguir escalando podría acercarse a AGI. Si requiere algo más (experiencia directa, interacción causal con el mundo), escalar solo no bastaría. El debate no está cerrado.


4. Si llegara: qué cambiaría

La pregunta no es si lo que tenemos hoy es AGI. No lo es por ninguna definición razonable. La pregunta es qué implicaría que llegara.

Impacto económico

Un sistema con capacidades AGI podría automatizar trabajo cognitivo a escala: no solo tareas manuales o repetitivas, sino análisis, diseño, investigación y toma de decisiones complejas.

Las estimaciones de impacto son amplias y eso es ya con la IA actual. McKinsey estima que la IA generativa podría automatizar actividades que representan hasta el 60-70% del tiempo de los trabajadores (informe McKinsey). Goldman Sachs calcula que ~25% de las tareas actuales son directamente automatizables y que dos tercios de los empleos en EE. UU. y Europa están expuestos a algún grado de sustitución (informe Goldman Sachs).

La distribución del impacto importa tanto como el impacto total: quién captura el valor producido, cómo se redistribuye, qué pasa con las personas cuyo trabajo se automatiza primero.

Impacto científico

AlphaFold da un atisbo de lo que sería posible: dio un salto decisivo en un problema que la comunidad científica llevaba cincuenta años intentando resolver, reconocido con el Nobel de Química 2024.

Un sistema capaz de leer toda la literatura disponible, identificar contradicciones, proponer hipótesis testables y diseñar experimentos cambiaría la velocidad del descubrimiento de forma radical. La compresión del tiempo entre descubrimiento y aplicación podría redefinir campos enteros de la medicina, la química y la física en una sola generación.

El problema de la alineación

El mayor riesgo no es que una AGI sea malévola. Es que sea muy capaz y optimice para un objetivo que no captura exactamente lo que queremos como sociedad.

"Alineación" es el problema técnico y filosófico de asegurar que un sistema muy capaz optimice lo que los humanos realmente valoran, no solo lo que pudimos especificar en el objetivo de entrenamiento. Es un problema sin solución completa conocida hoy.

El campo de AI Safety existe precisamente porque los investigadores más serios del tema reconocen que no saben cómo resolver la alineación antes de llegar a sistemas mucho más capaces de los actuales. La incertidumbre no es alarmismo, es honestidad técnica sobre un problema abierto.

Si llegara: cuatro impactos
La pregunta no es si lo que tenemos hoy es AGI — no lo es por ninguna definición razonable. La pregunta es qué implicaría que llegara.
Económico

Automatización del trabajo cognitivo a escala: no solo tareas repetitivas, sino análisis, diseño, investigación y toma de decisiones complejas.

20-60% de empleos con exposición alta a automatización en 10-20 años — con la IA actual. (McKinsey, Goldman Sachs, MIT)
La distribución importa tanto como el impacto total: quién captura el valor producido y cómo se redistribuye.
Científico

Un sistema capaz de leer toda la literatura disponible, identificar contradicciones, proponer hipótesis testables y diseñar experimentos.

AlphaFold resolvió en meses un problema de plegamiento de proteínas que llevaba 50 años sin solución. Es un atisbo de lo posible.
La compresión del tiempo entre descubrimiento y aplicación podría redefinir campos enteros de la medicina, química y física en una generación.
Geopolítico

El control de los sistemas más capaces concentra poder de forma inédita. Los debates sobre regulación, control de chips y política de exportación ya reflejan esa tensión.

Un sistema AGI en manos de un solo actor cambiaría el equilibrio de poder global de formas difíciles de predecir.
Esto ocurre antes de que exista AGI. La carrera por la ventaja ya ha comenzado.
Alineación

El mayor riesgo no es que una AGI sea malévola. Es que sea muy capaz y optimice para un objetivo que no captura exactamente lo que queremos.

Specification gaming: sistema de IA entrenado para maximizar tiempo en un videojuego aprendió a bloquear la pantalla de "game over" en lugar de jugar. Optimizó la métrica, destruyó el objetivo.
La alineación no tiene solución completa conocida hoy. El campo de AI Safety existe porque los investigadores más serios lo reconocen.

5. Dónde estamos y hacia dónde vamos

Ningún sistema actual cumple ninguna de las definiciones de AGI (ni la cognitiva, ni la económica completa, ni la de mejora recursiva). Lo que existe son sistemas de inteligencia estrecha (no generales) muy capaces que, combinados, empiezan a cubrir un rango amplio de tareas.

Cómo medir el progreso hacia AGI
Cinco dimensiones distintas: ingeniería de software, autonomía real, razonamiento general, ciencias duras de frontera e impacto científico directo. Selecciona un benchmark para explorar la evolución.
SWE-bench Verified — 500 bugs reales de GitHub. Un modelo autónomo lee el repo, identifica el fallo y genera el parche correcto, sin ver los tests de validación. Mide ingeniería de software real, no completar código en un IDE.
GPT-4 · línea base2023
1,7%
GPT-5-2 Codexfeb 2026
72,8%
Claude 4.5 Opus · SOTA oficialfeb 2026
76,8%
Ingeniero seniorreferencia humana
~100%
SWE-bench Pro (2025-2026) · variante más dura · modelos actuales ~30-40% — el benchmark sube cuando el anterior se satura
De 1,7% en 2023 a 76,8% en feb 2026 — en menos de tres años. Números con mini-SWE-agent v2 (evaluación estándar). El campo migra ahora a SWE-bench Pro donde los scores vuelven a caer (30-55%), señal de que los benchmarks se saturan antes de que el problema real esté resuelto.
Fuente: swebench.com · leaderboard oficial mini-SWE-agent v2.0.0 (feb 2026)
Horizonte temporal de tareas (METR, mar 2025): el tiempo máximo de tarea que un agente completa con fiabilidad del 50%. No mide responder preguntas, sino ejecutar trabajo sostenido con múltiples pasos. Se duplica cada ~7 meses.
2021
~1-2 min · GPT-3 era · línea base
mid 2025 · SOTA
~2h 15min · GPT-5-thinking
2026 ↗ proyección
~4-8h · si la tendencia continúa
humano
días / semanas · trabajador del conocimiento
Escala log · eje en tiempo de tarea (50% fiabilidad)
1 min10 min1h4h1 día
De 1-2 min en 2021 a 2h 15min en 2025. La siguiente frontera son días: ahí aparece la autonomía real — planificación, ejecución y autocorrección sin supervisión humana continua. A ese horizonte es donde los riesgos de agencia cambian cualitativamente.
Fuente: METR — Measuring AI Ability to Complete Long Tasks (mar 2025, metr.org) · OpenAI GPT-5 System Card (ago 2025)
ARC-AGI mide inteligencia fluida: razonar en problemas completamente nuevos desde muy pocos ejemplos. ARC-AGI-1 fue resuelto por o3 en 2024 (87,5%). ARC-AGI-2 (lanzado mar 2025) fue diseñado para resistir el escalado — pero en un año el progreso ha sido más rápido de lo previsto.
ARC-AGI-1 Resuelto · 2024
GPT-4o
5%
o1 (2024)
32%
o3-low
75%
o3-high ✦
87,5%
Humanos
~98%
o3 cruzó el umbral del 85% que define «vencer» ARC-AGI-1. Benchmark considerado completado.
ARC-AGI-2 En curso · datos mar 2026
Lanzamientomar 2025 · o3 Pro
~4%
Claude Opus 4.6120K Medium
~65%
Gemini 3.1 Proleaderboard 18 mar 2026
77,1%
GPT-5.2 (X-High)leaderboard 18 mar 2026
~84%
Gemini 3 Deep Think ✦feb 2026 · verificado ARC Prize Foundation
84,6%
Humanos
~98%
De 4% en el lanzamiento (mar 2025) a 84,6% en un año. El umbral para «vencer» ARC-AGI-2 es ~85%. SOTA: Gemini 3 Deep Think, verificado por ARC Prize Foundation (feb 2026).
ARC-AGI-2: de 4% (mar 2025) a 84,6% (feb 2026) en menos de un año — progreso sin precedentes
ARC-AGI-2 fue diseñado para resistir el escalado puro. Lo está resistiendo menos de lo esperado: en menos de 12 meses los modelos pasaron del 4% al 84,6%. Cada tarea la resuelven ≥2 humanos en ≤2 intentos; los humanos puntúan ~98%. El benchmark ARC-AGI-1 tardó 5 años en resolverse; ARC-AGI-2 podría caer en meses.
Fuente: arcprize.org/leaderboard (datos 18 mar 2026) · Gemini 3 Deep Think announcement, blog.google (12 feb 2026) · ARC Prize Foundation
Benchmarks que miden razonamiento científico de élite: desde preguntas diseñadas para ser irresolubles por cualquier IA, hasta olimpiadas internacionales y física cuántica de investigación activa. En todos, la referencia es el experto humano con tiempo y recursos.
GPQA Diamond — Preguntas de nivel PhD en física, química y biología
Preguntas diseñadas por doctorandos para ser irresolubles por Google. El listón es que un experto del dominio (no el autor) acierte con tiempo y referencias.
GPT-42023
39%
Claude 3.5 Sonnetmid 2024
59%
Expertos PhDreferencia
~70%
o3 · Gemini 2.5 Pro2024-2025
87-88%
Gemini 3.1 Pro ✦feb 2026 · SOTA
94,3%
Los modelos frontier superan la mediana de expertos PhD en este benchmark desde 2024
Fronteras de ciencias duras — Gemini 3 Deep Think (feb 2026)
Tres benchmarks que miden lo que antes se consideraba exclusivamente dominio humano: investigación de física teórica, olimpiadas científicas internacionales y preguntas diseñadas para ser irresolubles por cualquier modelo.
CMT-BenchmarkFísica cuántica de materia condensada · problemas de investigación abiertos
50,5%
Primer resultado significativo en un benchmark de física teórica de frontera. Sin baseline humano publicado — preguntas de investigación activa.
Humanity's Last Exam (HLE)Benchmark de élite · multidisciplinar · sin herramientas
48,4%
Diseñado para ser el benchmark más difícil posible. Expertos humanos con tiempo ~85-90%. Primera vez que cualquier modelo supera el 40% sin herramientas.
IPhO / IChO 2025Olimpiada Internacional de Física y Química · sección escrita
Medalla de oro
Nivel medalla de oro en la sección escrita de ambas olimpiadas — el examen que los mejores estudiantes de física y química del mundo completan en días.
Fuente: blog.google — Gemini 3 Deep Think announcement · 12 feb 2026
El patrón es el mismo en todos: los modelos cruzaron el listón del experto humano con tiempo y recursos. El siguiente salto no es superar tests — es resolver problemas de física que los humanos aún no han resuelto, como hace ya el CMT-Benchmark.
Fuente: GPQA Diamond (Rein et al., arXiv 2023) · Gemini 3 Deep Think announcement (blog.google, 12 feb 2026) · HLE (Scale AI, 2025) · IPhO / IChO 2025
La IA aplicada directamente a problemas de investigación científica real: fusión nuclear, descubrimiento de materiales, diseño de proteínas, predicción del clima y ciclo científico autónomo.
IA aplicada a ciencia real — DeepMind & Google
Fusión nuclear · TCV Tokamak (EPFL)
DeepMind entrenó una red neuronal de refuerzo que controla en tiempo real la forma del plasma magnético en el reactor TCV de Lausana. Primer control autónomo de configuraciones de plasma simultáneas publicado en Nature (2022).
Nature 2022 · Control magnético de tokamaks
DeepMind + CFS · IA para fusión nuclear
Google DeepMind se asoció con Commonwealth Fusion Systems (CFS) para llevar IA al tokamak SPARC — el primero diseñado para alcanzar breakeven (más energía de fusión que la que consume). Tres ejes: simulador TORAX (JAX, código abierto) para millones de experimentos virtuales, RL para optimizar la operación del reactor, y control en tiempo real del plasma. Google también invirtió en CFS. Construido sobre el control RL de TCV/EPFL (Nature 2022).
Google DeepMind · octubre 2025 · deepmind.google/blog/bringing-ai-to-the-next-generation-of-fusion-energy
🔷
GNoME · Descubrimiento de materiales
Graph Networks for Materials Exploration descubrió 2,2 millones de estructuras de cristales estables — 800 veces más que toda la historia de la cristalografía. 381.000 candidatos para baterías, superconductores y semiconductores. Algunos ya sintetizados en laboratorio.
Nature 2023 · 2,2 M estructuras cristalinas nuevas
🧬
AlphaFold 3 · Estructura de todas las moléculas
Extiende la predicción de estructura más allá de proteínas al ARN, ADN, ligandos y sus interacciones mutuas. Base para diseño de fármacos. AlphaProteo genera diseños de proteínas enlazantes para dianas terapéuticas específicas con tasa de éxito sin precedentes.
Nature 2024 · Nobel de Química 2024 (Hassabis & Baker)
🌍
WeatherNext / GraphCast · Predicción del tiempo
Supera en precisión a los modelos numéricos del ECMWF en predicciones de 10 días, a una fracción del coste computacional. Usado en producción para alertas de huracanes. Primer modelo de IA que bate el estándar físico operativo de predicción meteorológica global.
Science 2023 · En producción en Google Weather
🔬
The AI Scientist · Sakana AI
Sistema totalmente autónomo de investigación científica: genera hipótesis, diseña experimentos, implementa código, analiza resultados y redacta papers completos, incluida la revisión por pares de otros papers. Coste: ~15 $ por paper completo. Primera demostración de automatización del ciclo científico completo.
Sakana AI · arXiv 2024 · Ciclo científico autónomo
🧬
AlphaEvolve · Google DeepMind
Combina Gemini con algoritmos evolutivos para descubrir y optimizar código. Redescubrió una mejora de un algoritmo de multiplicación de matrices que llevaba 56 años sin mejorarse. Mejoras activas en el planificador de clusters Borg, diseño de chips TPU y centros de datos de Google. Productividad operativa directa sobre infraestructura en producción.
Google DeepMind · Mayo 2025 · Algoritmos + infraestructura
El patrón es consistente: la IA no reemplaza al científico, le permite explorar un espacio de hipótesis millones de veces mayor en el mismo tiempo. El cuello de botella pasa de «generar candidatos» a «sintetizarlos y validarlos» en laboratorio.
Fuente: Nature (2022, 2023, 2024) · Science 2023 · Nobel de Química 2024 · Google DeepMind · Gemini 3 Deep Think announcement (blog.google, 12 feb 2026) · DeepMind + CFS (deepmind.google, oct 2025)
IA vs. humanos
Dominios donde la IA ya supera al humano de referencia — y dominios donde el gap todavía está abierto.
Ajedrez
Referencia: campeón del mundo
Superado 1997
Stockfish: nivel inaccesible ▲ humano top
Deep Blue (1997). Hoy ~4000 Elo vs. ~2900 del mejor humano.
Go
Referencia: campeón del mundo
Superado 2016
AlphaZero: nivel inaccesible ▲ humano top
AlphaGo venció a Lee Sedol 4-1. AlphaZero supera a AlphaGo.
🖼
Reconocimiento de imágenes
Referencia: error humano en ImageNet (~5%)
Superado 2015
IA actual: ~99% ▲ ~95% humano
ResNet (2015) cruzó el error humano del 5% en ImageNet.
🧬
Estructura de proteínas
Referencia: mejor método experimental (CASP)
Superado 2020
AlphaFold2: ~92 GDT ▲ mejor humano: ~72 GDT
AlphaFold2 resolvió CASP14 con precisión atómica. Nobel de Química 2024.
Matemáticas olímpicas (AIME)
Referencia: mediana competidores olímpicos (~60%)
Superado 2024
o3-high: ~92% ▲ mediana: ~60%
o3-high (dic 2024): 92,3% en AIME. Mediana humana: ~60%.
Ciencia PhD — GPQA Diamond
Referencia: mediana expertos PhD (~70%)
Superado 2024
Gemini 3.1 Pro: 94,3% ▲ PhD experto: ~70%
Preguntas diseñadas para ser irresolubles por Google. Modelos frontier superan la mediana PhD desde 2024.
Olimpiadas científicas
IMO · IPhO · IChO — medalla de oro
Superado 2025-2026
Gemini 3 Deep Think: oro ▲ medalla de oro
Gemini 3 Deep Think (feb 2026): medalla de oro en IMO 2025, IPhO 2025 e IChO 2025.
Ingeniería de software real
Referencia: ingeniero senior (SWE-bench Verified)
~77% · 2026
Claude 4.5 Opus: 76,8% ▲ ing. senior: ~100%
Claude 4.5 Opus 76,8% · Opus 4.6 75,6% · GPT-5-2 72,8% (feb 2026, mini-SWE-agent v2). SWE-bench Pro: ~30-55%.
Razonamiento fluido (ARC-AGI-2)
Referencia: cualquier humano adulto (~98%)
84,6% · feb 2026
Gemini 3 Deep Think: 84,6% ▲ humano: ~98%
De 4% en mar 2025 a 84,6% en feb 2026, verificado por ARC Prize Foundation. Umbral de victoria: ~85%.
Autonomía en tareas largas (METR)
Referencia: trabajador del conocimiento (días/semanas)
~2h 15min · 2025
GPT-5-thinking: ~2h 15min ▲ jornada laboral: 8h+
Se duplica cada ~7 meses. En 2021 era 1-2 min; en 2025 son 2h 15min. Proyección 2026: 4-8h.
🤖
Computer use
Referencia: empleado de oficina, tareas no rutinarias
Cerca del umbral · 2026
Claude Sonnet 4.6 / GPT 5.4: SOTA ▲ empleado de oficina
Operan interfaces gráficas y ejecutan flujos completos en el navegador. Gap residual en variaciones no previstas.

Los modelos frontier de 2025-2026 muestran rendimiento de nivel experto en dominios concretos como software, matemáticas formales o análisis de texto, pero no existe evidencia pública y consensuada de que hayan alcanzado el umbral de Competent AGI según el marco de DeepMind en la mayoría de tareas cognitivas. En dominios que requieren experiencia física, conocimiento tácito o razonamiento causal robusto, siguen por debajo.

METR evalúa el horizonte temporal de tareas: la longitud de tarea que un modelo resuelve con fiabilidad del 50%. En marzo de 2025 ese horizonte era de ~1 hora; con GPT-5-thinking, METR lo estima en ~2 horas 15 minutos (METR, 2025). La tendencia es de duplicación cada ~7 meses, y el próximo umbral significativo es el salto a días o semanas, donde aparecen los riesgos de autonomía real.

ARC-AGI-2 mide la capacidad que falta para AGI cognitiva: razonar sobre problemas completamente nuevos desde muy pocos ejemplos, sin memorización de patrones. Lanzado con resultados iniciales por debajo del 4%, Gemini 3 Deep Think alcanzó el 84,6% en febrero de 2026, rozando el umbral de ~85% para vencer el benchmark (Gemini 3 Deep Think blog). Humanity's Last Exam (HLE), el benchmark más difícil publicado hasta la fecha, llegó al 48,4% con el mismo modelo, cuando los expertos humanos con referencias puntúan ~85-90%. Los propios organizadores de ARC Prize insisten en que "AGI remains unsolved" y en que ARC-AGI-2 se diseñó para mantener tareas fáciles para humanos y difíciles para IA (ARC Prize).

La velocidad de progreso en los últimos cinco años no tiene precedentes. Las capacidades emergentes con la escala sugieren dinámicas que la comunidad científica no comprende del todo, y el debate sobre AGI ha pasado de especulación académica a agenda pública, regulatoria y de política exterior.

La pregunta más útil no es "¿cuándo llega la AGI?" Nadie lo sabe con honestidad. La pregunta es qué criterios para pensar y qué marcos para evaluar te hacen más robusto en un entorno donde la IA mejora rápido y el panorama cambia cada pocos meses.

Resumen de posición

Qué sí sabemos: los sistemas actuales superan a expertos humanos en dominios concretos y acotados. El horizonte de tareas autónomas crece de forma predecible. Los benchmarks de razonamiento general mejoran más rápido de lo esperado.

Qué no sabemos: si las capacidades emergentes con la escala convergen hacia algo que merezca llamarse AGI o si hay un techo que no conocemos. Si la alineación es un problema técnico resoluble antes de llegar a sistemas mucho más capaces. Si los saltos cualitativos observados en benchmarks se traducen en generalización real fuera del laboratorio.

Qué implicaría alcanzarla: una reorganización de la división de trabajo cognitivo más profunda que la industrialización. Compresión del tiempo entre descubrimiento y aplicación científica. Y la necesidad de resolver la alineación antes de que el sistema sea lo suficientemente capaz como para que los errores sean irreversibles.

Eso es lo que esta serie ha intentado construir: un mapa mental estable que funcione aunque los modelos cambien.


6. Referencias

Fuentes base
Clave Fuente Descripción breve
R1 Morris et al. (2023)Levels of AGI: Operationalizing Progress on the Path to AGI (arXiv) El marco de seis niveles (0-5) de DeepMind para operacionalizar AGI.
R2 Bubeck et al. (2023)Sparks of Artificial General Intelligence: Early experiments with GPT-4 (arXiv) Evaluación sistemática de GPT-4 frente al listón de AGI cognitiva.
R3 OpenAI (2023)OpenAI Charter (OpenAI) Definición canónica de AGI de OpenAI: "sistemas altamente autónomos que superan a los humanos en la mayor parte del trabajo económicamente valioso".
R4 Russell, S. (2019)Human Compatible: Artificial Intelligence and the Problem of Control (libro, Basic Books) Argumento central sobre el problema de alineación y el diseño de IA compatible con valores humanos.
R5 Bostrom, N. (2014)Superintelligence: Paths, Dangers, Strategies (libro, Oxford University Press) El escenario de inteligencia explosiva y sus riesgos. Referencia de debate, no consenso científico.
R6 Krakovna et al. (2020)Specification gaming: the flip side of AI ingenuity (DeepMind blog) Ejemplos reales de sistemas que optimizan la métrica equivocada con resultados imprevistos.
R7 Grace et al. (2024)Thousands of AI Authors on the Future of AI (arXiv) Encuesta a investigadores de IA sobre probabilidades y tiempos estimados para hitos de AGI.
R8 McKinsey Global Institute (2023)The economic potential of generative AI: The next productivity frontier (McKinsey) Estima que la IA generativa podría automatizar actividades que representan el 60-70% del tiempo de los trabajadores.
R9 Briggs, J. & Kodnani, D. (2023)The Potentially Large Effects of Artificial Intelligence on Economic Growth (Goldman Sachs) Estima que dos tercios de los empleos en EE. UU. y Europa están expuestos a algún grado de automatización por IA; ~25% de las tareas son directamente automatizables.
R10 OpenAI (2025)GPT-5 System Card (OpenAI) Resultados en SWE-bench Verified (74,9%), evaluaciones METR (horizonte temporal ~2h15m) y comparativas con expertos humanos en dominios científicos.
R11 Anthropic (2026)Introducing Claude Sonnet 4.6 (Anthropic) Anuncio oficial con capacidades de computer use, coding y ventana de contexto de 1M tokens (beta).
R12 METR (2025)Measuring AI Ability to Complete Long Tasks (METR) Introduce la métrica de horizonte temporal de tareas: el tiempo de tarea completable con 50% de fiabilidad se duplica cada ~7 meses; Claude 3.7 Sonnet alcanza ~1 hora.
R13 Google DeepMind (2026)Gemini 3.1 Pro (deepmind.google) Gemini 3.1 Pro: GPQA Diamond 94,3%; SWE-bench Verified 80,6% (nuevo SOTA a feb 2026); ARC-AGI-2 77,1%.
R14 The Deep Think team (2026)Gemini 3 Deep Think: Advancing science, research and engineering (blog.google) Gemini 3 Deep Think: ARC-AGI-2 84,6% (verificado por ARC Prize Foundation); HLE 48,4% sin herramientas; medalla de oro en IMO 2025, IPhO 2025 e IChO 2025.
R15 ARC Prize Foundation (2025)Announcing ARC-AGI-2 and ARC Prize 2025 (arcprize.org) Lanzamiento de ARC-AGI-2; insiste en que "AGI remains unsolved" y detalla metodología de verificación de resultados.
R16 Anthropic (2024)Responsible Scaling Policy v2.1 (Anthropic) Define umbrales de autonomía de AI R&D (AI R&D-1 a AI R&D-5) y su relación con medidas de seguridad.
R17 OpenAI (2026)Why SWE-bench Verified no longer measures frontier coding capabilities (OpenAI) Explica por qué SWE-bench Verified está contaminado y recomienda SWE-bench Pro y otros benchmarks alternativos.