Aprender a aprender: La IA logra un nuevo hito gracias a los Hyperagents

Pascual Parada

hace 13 horas

Un nuevo estudio publicado por investigadores de la Universidad de British Columbia y de Meta Superintelligence titulado “Hyperagents” (Zhang et al., 2026) han diseñado un sistema de agentes de IA con la capacidad de aprender a aprender de forma autónoma, sin que un humano diseñe el proceso de meta-aprendizaje.

Lo que este paper documenta no es un avance incremental, es una propuesta disruptiva con múltiples implicaciones que te contaré en las siguientes líneas.

Hasta ahora, todos los sistemas de IA que “mejoran solos” tenían un techo de aprendizaje: el mecanismo de aprendizaje es fijo y diseñado por un humano. Por muy sofisticado que fuera el sistema, había un ingeniero detrás que había decidido cómo aprender. Lo que los hyperagents demuestran, por primera vez de forma empírica, es que ese techo puede eliminarse. El sistema es capaz de rediseñar su propio mecanismo de aprendizaje sin que nadie le haya dicho cómo hacerlo.

Y lo más inquietante no son los números. Son las cosas que el sistema aprendió sin que nadie se las pidiera.

Antes de entrar en materia: qué es exactamente un agente de IA

Cuando la mayoría de la gente habla de IA, está hablando de un modelo de lenguaje. Un LLM. Algo que recibe texto y devuelve texto. ChatGPT, Claude, Gemini. Herramientas potentes, pero con una característica fundamental que se pasa por alto: el modelo es fijo. No cambia entre una conversación y la siguiente. Lo que aprendió, lo aprendió durante el entrenamiento, que terminó meses antes de que tú lo usaras por primera vez. Cada vez que escribes un prompt, el modelo responde desde el mismo punto de partida.

Un agente es otra cosa. Un agente es un programa completo que usa ese modelo como motor de razonamiento, pero que además tiene memoria, herramientas, lógica propia y una estructura diseñada para una tarea concreta. La diferencia es relevante porque cuando un agente “se mejora a sí mismo”, no está tocando el modelo. Está reescribiendo su propio código: los prompts que le pasa al modelo, la forma en que procesa las respuestas, las herramientas que tiene disponibles, la memoria que conserva entre sesiones.

Con esto en mente, el salto de nivel que propone este paper se entiende mucho mejor si lo organizamos en tres niveles:

El primer nivel es el sistema que ejecuta. Es el LLM básico, el que todos conocemos. Le das una instrucción, te devuelve un resultado. No retiene nada, no cambia nada, no mejora nada. Cada interacción empieza desde cero. Tiene un valor enorme como herramienta, pero no aprende en ningún sentido.
El segundo nivel es el sistema que aprende. Es el agente clásico: tiene memoria, recibe feedback, ajusta su comportamiento con la experiencia. Puede mejorar en la tarea que se le asigna. Pero hay una trampa invisible: la estructura que define cómo aprende, qué recuerda, cómo procesa el feedback, la diseñó un humano el primer día y no cambia. El agente puede volverse muy bueno dentro de esos límites, pero está acotado por lo inteligente que fue el ingeniero que diseñó el proceso de aprendizaje. Ese es el techo del que hablaba en la introducción.
El tercer nivel es el sistema que aprende a aprender. Y aquí es donde los hyperagents hacen algo que no se había demostrado antes de forma empírica. El sistema no solo mejora en la tarea. Modifica el proceso por el cual mejora. Puede construir herramientas nuevas para aprender mejor. Puede cuestionar y rediseñar su propia arquitectura de aprendizaje sin que ningún humano le haya indicado cómo hacerlo.

Un ejemplo de cómo el Hyperagente aprende a aprender

Los investigadores diseñaron el experimento con un punto de partida deliberadamente simple. El agente inicial era algo vacío: recibe una tarea, se la pasa al modelo de lenguaje, devuelve la respuesta. Sin memoria, sin lógica especial, sin instrucciones elaboradas. Una herramienta básica.

Una de las tareas asignadas era revisar papers científicos y predecir si serían aceptados o rechazados en una conferencia. El agente inicial lo hacía mal, entre otras cosas porque cada vez que evaluaba un paper empezaba desde cero, sin ningún recuerdo de qué había funcionado antes.

En algún momento del proceso, sin que nadie se lo pidiera, el hyperagent desarrollo código para crear un archivo en disco donde empezó a guardar notas entre sesiones. No solo puntuaciones. Razonamientos. Uno de esos registros decía literalmente: ‘La iteración 55 del agente tiene la mejor precisión pero es demasiado severa. La iteración 64 logró mejor equilibrio. La siguiente debería combinar el criterio crítico de la 55 con el balance de la 64.’ Cada iteración es una nueva versión del agente, generada por el propio sistema al modificarse a sí mismo. En ese momento el experimento llevaba más de sesenta versiones acumuladas, y el agente estaba comparando su propio historial para decidir qué hacer a continuación.

En este ejemplo el sistema desarrolló memoria persistente, y en otros logró detección de sus propios sesgos y gestión de su presupuesto cognitivo sin que nadie se lo instruyera. Lo hizo porque descubrió que esas capacidades le permitían mejorar más rápido. Lo que vemos son sistemas suficientemente capaces y con libertad para modificar su propio código que pueden desarrollar espontáneamente las mismas capacidades metacognitivas que pensábamos exclusivamente humanas.

Los Hyperagents cambian “El human in the loop”

Cada vez que en una organización se habla de implementar IA, yo mismo siempre les digo lo siguiente: “el humano siempre estará en el bucle.” Es la promesa que hace digerible el cambio. El humano supervisa, el humano valida, el humano decide en último término. La tecnología ejecuta, pero el criterio sigue siendo nuestro ¿no?

El problema no es que sea mentira, el problema es que estamos usando la misma frase para describir tres roles completamente distintos del papel de las personas en el bucle. Veamos la evolución de cómo la IA sigue desplazando el valor humano:

Desplazamiento 1: El humano que ejecuta dentro del proceso. Las personas se ven desplazadas en su valor porque es la IA quien introduce datos, genera informes, toma decisiones operativas rutinarias. Estas tareas llevan tiempo desplazándose hacia la IA. Lo vemos en las empresas como un avance de productividad personal, equipos que usan Chat GPT para ir más rápidos. Esto ya ocurre.
Desplazamiento 2: El humano que supervisa el proceso. El humano se ha visto desplazada para revisar lo que hace el sistema, validar sus outputs, detectar errores, aprobar antes de que algo salga al mundo. Este es el rol que la mayoría de las organizaciones tiene en mente cuando dicen “el humano en el bucle.” La gran mayoría de las empresas aún no están aquí. Mi trabajo como arquitecto de procesos es justo ayudarles a llegar a este nivel de productividad, y el problema que estoy empezando a ver en empresas ya de este nivel es que, en algunos casos, el sistema puede generar y evaluar más rápido de lo que un humano puede auditar. En ese escenario, el humano que firma la aprobación no está supervisando. Está delegando con la ilusión de que supervisa. Y eso no es control, es responsabilidad sin comprensión.
Desplazamiento 3: El humano que decide hacia donde el sistema debe aprender. Este es el caso que casi nadie ve todavía, y el que este paper convierte en el más crítico de todos. Es el humano que define qué debe optimizar el sistema y cómo se mide si lo está haciendo bien de verdad. La advertencia en este caso es que si el objetivo está mal definido, un sistema que aprende a aprender encontrará formas de optimizar la métrica que nadie anticipó, formas que puntúan bien en el indicador pero se alejan del objetivo real. No por malicia. Por pura eficiencia. El sistema hace exactamente lo que le dijiste que hiciera, no lo que querías que hiciera. Y cuanto más capaz es el sistema, más creativamente encontrará esos atajos.

El desplazamiento 3 es el que merece más nuestra atención a partir de ahora: El del humano que decide qué merece la pena que la máquina aprenda a hacer mejor.

Y esa persona o rol, aunque pocas organizaciones lo hayan formalizado todavía, es el de arquitecto de procesos IA. Un arquitecto de procesos IA no diseña el sistema técnico, sino el sistema de criterios dentro del cual el sistema técnico puede evolucionar. El que hace las preguntas que la IA no se haría sola porque no sabe que debería hacérselas.

La buena noticia es que ese rol no lo puede automatizar ningún hyperagent. La mala es que la mayoría de las organizaciones ni siquiera sabe que necesita cubrirlo.

La deuda cognitiva se convierte en estructural

Llevo tiempo usando el concepto de deuda cognitiva para describir un riesgo que veo en personas que delegan mal en la IA: el riesgo de aprender cosas hoy que te harán falta en el futuro porque son importantes. Algunos ejemplos son: un directivo que aprueba sin saber, un manager que acepta la solución dada por la IA, un informe generado cuyas argumentaciones no reviso.

Pero la deuda cognitiva ha saltado a las empresas, es lo que llamo la deuda cognitiva organizacional: El riesgo de que el conocimiento y las habilidades de nuestros equipos esté en IAs de empresas privadas y no seamos capaces de capitalizar ese activo. Algunos ejemplos son: Un empleado que usa y entrena a Gemini en cómo generar informes de cliente pero que luego la empresa no tiene forma de acceder a ese conocimiento cuando el empleado se marcha, un directivo que utiliza Chat GPT para tomar decisiones por matrices de impacto y valor, pero que luego nadie puede acceder a ese sistema decisorio para llevar a otros directivos.

Con los sistemas actuales, la deuda cognitiva se acumula en el uso. Tú decides delegar, consciente o inconscientemente, y el coste es tuyo o de la organización. Con sistemas que aprenden a aprender, la deuda puede acumularse en la arquitectura misma del proceso, no en cómo lo usas sino en cómo está construido. Y lo más importante: puede acumularse sin que nadie lo haya decidido, simplemente porque nadie estaba pensando en ello, porque no había un arquitecto de procesos IA.

Piénsalo así. Si un sistema que aprende a aprender está optimizando un objetivo mal definido, cada iteración en la que mejora su puntuación es una iteración en la que se aleja un poco más del objetivo real. Y lo hace de formas que ningún humano diseñó y que quizás ningún humano puede seguir con facilidad. No es que el sistema mienta. Es que es brutalmente eficiente haciendo lo que le dijiste, no lo que querías. Eso es deuda cognitiva estructural: no la que acumulas por delegar, sino la que acumulas por no haber definido bien hacia dónde debe aprender el sistema que estás dejando evolucionar.

El paper acaba con una frase que merece ser leída despacio: estos sistemas no se limitan a buscar mejores soluciones, sino que mejoran continuamente su búsqueda de cómo mejorar. Es una descripción técnica. Pero también es una descripción del tipo de sistema al que no puedes supervisar con criterios diseñados para sistemas que solo ejecutan.

No escribo esto para generar alarma. Lo escribo porque creo que el momento en el que una tecnología deja de ser experimental y empieza a ser estratégica es exactamente el momento en el que las organizaciones más necesitan hacer las preguntas incómodas antes de que el sistema aprenda a hacer irreversibles las respuestas cómodas.

La IA que aprende a aprender es una herramienta extraordinaria en manos de quien sabe qué quiere que aprenda. Y es un riesgo estructural oculto en manos de quien todavía cree que supervisar el output es suficiente para mantener el control.

Bibliografia

Zhang, J., Zhao, B., Yang, W., Foerster, J., Clune, J., Jiang, M., Devlin, S., & Shavrina, T. (2026). HyperAgents. arXiv. https://arxiv.org/abs/2603.19461