SI LA IA NO ES CAPAZ DE GESTIONAR UNA MÁQUINA DE VENDING, MUCHO MENOS UNA EMPRESA DE SOFTWARE
Eso es al menos lo que tenían que haber pensando los investigadores de la Carnegie Mellon University antes de iniciar su investigación titulada: “TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks”.
El proyecto consistió en desarrollar una startup denominada “TheAgentCompany” en la que todos sus trabajadores eran Agentes de IA para desarrollar 179 tareas distribuidas en 6 categorías laborales como ingeniería, proyectos, RRHH o administración. El contexto de la empresa fue simulado, y los agentes tenían acceso a aplicaciones como una intranet corporativa, un espacio de trabajo local y a compañeros de trabajo igualmente simulados. Además, se utilizaron métricas para evaluar el grado de finalización de cada una de las tareas.
En términos generales, el sistema de agentes no llegó a finalizar el 25% de todas las tareas. Las que presentaron mayor dificultad fueron aquellas a priori eran más sencillas de categorías como administración y finanzas con problemas para navegar por la web o entre sistemas de archivos, sin embargo, tareas como ingeniería y desarrollo del software obtuvieron mayor porcentaje de éxito. El propio informe concluye que el sistema de agentes de IA cometió graves errores por la falta de habilidades sociales, incompetencia en la navegación web y autoengaño, ya que los agentes, ante una tarea compleja crearon formas para no hacerla.
Si hace unas semanas os decía sobre un estudio en el que una IA no supo gestionar una máquina de refrescos, en este caso, con un objetivo más ambicioso y un sistema más complejo, el éxito sigue sin verse.
Supongo que es muy humano tratar que una máquina haga lo que nosotros hacemos, pero parece es que poco inteligente. A día de hoy, y por mucho que los gurús tecnológicos nos lo intenten vender, la máquina no está hecha para sustituir a la persona en su totalidad. Seamos inteligentes y busquemos que las máquinas hagan cada vez más cosas por nosotros, pero no intentemos que sean nosotros.