Cómo crear agentes conversacionales
Recientemente he estado en el Eshow de Barcelona como conferenciante para impartir una sesión sobre el valor de los agentes conversacionales, y cómo poder crearlo con diferentes tecnologías. Aquí os dejo un resumen de la sesión y las slides utilizadas.
PROBLEMA, SOLUCIÓN, DEFINICIÓN
El problema que tenemos hoy día es que tenemos que hacer más cosas con menos tiempo y recursos, es lo que se llama la presión por la productividad, y es un problema real de las organizaciones modernas. Ante este problema, las herramientas digitales parecen ser la única solución.
¿Qué es GPT de Chat GPT?
Utilidad de la plataforma Chat GPT de Open AI que permite el entrenamiento de automatismos que permiten desarrollar una tarea en particular.
¿Qué es un agente?
Un Modelo Fundacional (Claude, Llama3, Mistral…) entrenado para un fin en particular a través de cualquier plataforma Cloud como AWS, Azure o Google.
¿Cómo construir tu propio agente con Chat GPT?
Dentro de la plataforma de Chat GPT, podemos ir a explorar GPTs y desde allí a la opción de Create. Una vez dentro tenemos dos opciones, crear el GPT a través de una conversación en lenguaje natural indicándole como queremos que se comporte, pero lo mejor es siempre ir a configuración y rellenar los distintos apartados o secciones que se nos ofrecen. Entre estas secciones podemos subir un logo, dar un nombre y una descripción.
Uno de los apartados más importantes es el bloque de instrucciones. La recomendación en este caso es desarrollar las instrucciones en un fichero de texto local en nuestro ordenador, que después subiremos al bloque adecuado del GPT. Lo que hay que indicar en las instrucciones son datos como los siguientes:
- Idioma en el que queremos que hable el agente.
- El objetivo que queremos que adopte el agente: divulgación, instruccional, formativo, consultor, auditor, etc…
- Comportamiento o rol que buscamos que asuma. Ej: Experto en SEO, experto en obras de arte, experto en copywriting, etc.
- Estilo de preguntas a realizar: formal, informal, técnico, urbano…
- Peticiones de búsqueda en web. En este punto le indicaremos algunas URL que visite de forma predominante si no tiene la información que le pide el usuario.
- Knowledge. En este punto le indico información sobre que contiene cada fichero del conocimiento que le he subido
En cuanto al bloque de conocimiento, se trata de que queremos que consulte el agente para responder a las preguntas del usuario. Por ejemplo, en un GPT que he creado hace poco llamado “Business Plan Advisor”, le he subido como conocimiento mis libros digitales sobre estrategia empresarial y emprendimiento que tengo, más algunas plantillas de Business Plan en formato doc y algunos ejemplos de Business Plan que tengo propios.
Lo último que tenemos que hacer es compartir el GPT, y para ello tendremos distintas opciones, como no compartirlo y utilizarlo de forma privada, compartirlo por link, o bien, incluirlo en la GPT Store de Chat GPT. En este caso, sólo los usuarios que tengan la cuenta Plus lo podrán utilizar. Una limitación importante.
¿Cómo construir tu propio agente con Copilot?
Construir un GPT con Copilot es muy similar a Chat GPT. De hecho, es la misma tecnología en ambos que corre por debajo. Como única salvedad y ventaja, es que si bien sólo pueden crear GPTs en Copilot aquellos que tienen la cuenta PRO, a diferencia de Chat GPT, podrán utilizar vuestro GPT cualquier persona, tenga o no la cuenta PRO. Esto lo hace mucho más accesible. Sin embargo, me temo que cuando Chat GPT implante una solución para poder monetizar los GPTs por sus creadores, Microsoft no haga lo mismo.
¿Cómo construir tu agente con AWS?
Amazon Web Services tiene un conjunto de aplicaciones para poder crear nuestros propios agentes conversación, con mayor potencia que las anteriores opciones de Chat GPT y Copilot, pero con una dificultad mayor. En primer lugar hemos de decir que hacer un agente con AWS es lo mismo que utilizar un modelo de lenguaje fundacional libre como Mistral o Llama3 y entrenarlo en función de nuestros objetivos.
Existen diversos modo de entrenamiento:
- RAG – Generación de Respuesta Aumentada. Esto es lo más parecido a las opciones anteriores, realmente lo que hacemos aquí es utilizar un modelo de lenguaje libre como Llama3, y decirle al sistema que para las respuestas debe buscar en la base de conocimiento creada.
- Fine Tuning, es algo más complejo que el RAG, y tiene dos modos:
- Respuestas basadas en dominio
- Respuestas basadas en instrucciones
- Entrenamiento basado en parámetros, que es el entrenamiento más potente pero que es complejo de realizar técnicamente y nos costará pagar por la carga computacional que conlleva.
La opción de entrenamiento del agente más sencilla es el RAG, pero sin embargo nos encontraremos con las dificultades típicas de la gestión de permisos de cualquier plataforma de cloud computing como es AWS.
Como os decía al principio, cuanto más flexibilidad y potencia buscamos, más complejo se vuelve el diseño del agente. Cada uno que elija en función de sus conocimientos.
Os dejo las slides de mi presentación en este link.
Seguimos avanzando!!!