UNA INVESTIGACIÓN DEMUESTRA QUE LOS LLMs NO SON UNA CAJA NEGRA
Hasta ahora teníamos la idea de que los modelos de lenguaje como Chat GPT o Gemini eran cajas negras, es decir, que no entendíamos bien lo que ocurría en su interior a la hora de generar la salida. Sin embargo, un artículo de investigación muestra evidencias de que esto no es así.
Un grupo de investigadores de universidades europeas demuestran que en los LLMs, lejos de ser algoritmos de caja negra, se puede conocer el prompt de forma exacta si accedemos al estado interno de los nodos. Me explico, aún no podemos el prompt de entrada conociendo la salida, pero si podemos conocer el prompt de entrada accediendo al estado de los nodos del algoritmo. De hecho, los investigadores han desarrollado SIPIT (Sequential Inverse Prompt via ITerative updates), un algoritmo capaz de saber el prompt de entrada consultando los nodos del LLM.
SIPIT se diferencia de los algoritmos de IA Explicable (XAI) como LIME o SHAP, que tratan de descifrar el prompt de entrada estudiando la salida generada. La principal diferencia es que SIPIT analiza los estados internos del modelo, y la segunda y gran diferencia, es que SIPIT descifra de forma exacta y al 100% el prompt, y no de manera probabilística como hacen los algoritmos XAI.
Perdonar las cuestiones técnicas, pero el descubrimiento es importante por sus implicaciones: (1) Si el prompt se almacena en el algoritmo, las salvaguardas por protección de datos deben ser totales, como si fuera una base de datos; (2) Los equipos de ingeniería pueden usar la capacidad de inversión de SIPIT para auditar modelos y validar metodologías de interpretabilidad; (3) Las prácticas de diseño seguro y la gestión de accesos deben ser extremadamente rigurosos.
La próxima vez que uses una IA, recuerda: sus ‘pensamientos’ más internos no son abstracciones, sino un espejo perfecto de tu secreto. Tu prompt nunca se pierde, solo está esperando ser invertido.
