Necesitas pensar en los KPIs de tu empresa. Entonces, ¿cuál es el retorno de inversión basado en este proyecto de agente de IA? ¿Cuánto ingreso estamos obteniendo después de implementar el proyecto de agente de IA? ¿Cuál es la satisfacción del usuario? Entonces, ¿aparecieron nuestros usuarios después de que hemos introducido este agente de IA en nuestros sistemas, en nuestro proceso? Y si estás usando agentes de IA en tu flujo de trabajo, ¿cuánto tiempo ahorra? Como sabes, los agentes de IA toman acción. También quieres revisar las acciones de este agente de IA. Así que, necesitas humanos en el bucle. Si tuvieras humanos en el bucle, ¿cuánto tiempo le toma al humano evaluar? Por ejemplo, en el desarrollo de software, necesitas revisar el código generado por el agente de IA. ¿Toma más tiempo para que el desarrollador revise el código? Entonces, ¿cuánto tiempo toma? ¿Es mejor que el desarrollador cree el código por sí mismo o escriba el código por sí mismo y haga la evaluación? O, ¿es mejor o toma más tiempo si permites que los agentes escriban el código? Pero, en la mayoría de los casos, los agentes son realmente buenos para construir código. Como ya podemos ver de Entropic Cloud Code y de esta nueva herramienta, que se llama OpenCloud, puedes ver lo buenos que son los agentes de IA escribiendo código. Como empresa, también quieres verificar la adopción y el compromiso de tus usuarios, de los clientes, cuánto se involucran después de que has introducido el agente de IA. Entonces, esto se enfoca solo en tu caso de uso como negocio o como usuario.
Ahora, esta evaluación de seguridad y protección es algo de lo que mucha gente no habla, pero esta es una de las evaluaciones más importantes para proyectos de agentes de IA. La alucinación y detección es algo en lo que la mayoría de los grandes laboratorios ya están trabajando, y la tasa ya está reduciendo. Pero, el impacto de riesgo y responsabilidad también es importante. Por ejemplo, hubo un caso donde un agente de IA dio un 80% de descuento a un cliente. El cliente pasó algún tiempo para convencer al agente de IA de darle un 80% de descuento. Ahora, la pregunta es, en este tipo de situación, ¿quién es responsable de ello? ¿Es el cliente que convenció al agente de IA? ¿Es la empresa que implementó el agente de IA? ¿Es la empresa que proporcionó los modelos detrás del agente de IA? Pero, una vez que estás construyendo un proyecto de agente de IA, quieres crear mecanismos o métricas para medir este riesgo de los usuarios. Luego, vivo en Alemania, en Europa. En Europa, las regulaciones y políticas son cinco y seis. Entonces, tenemos muchas regulaciones, muchas políticas que necesitamos cumplir al construir herramientas de IA. El único problema es que dado que estos agentes de IA son nuevos y evolucionan cada día, la mayoría de estas políticas no están cumpliendo con los estándares. Entonces, como empresa o como usuario, también quieres tener esta regulación basada en tu caso de uso. Para los agentes de IA, toman acciones. A veces, toman acciones no autorizadas. Así que, quieres medir con qué frecuencia tus proyectos de agentes de IA intentan acciones no autorizadas. Recientemente, de este open cloud, hubo una situación donde la mayoría de los nombres de usuario y tokens de API de los usuarios fueron filtrados en línea. Así que, también quieres medir los incidentes cuando los datos, los datos PPI, se vinculan o filtran en línea.
Luego, la cuarta evaluación que es muy importante es el costo y la eficiencia. Entonces, construir un proyecto de agente de IA no es suficiente si no es eficiente y si es muy costoso. Así que, quieres verificar el uso de tokens y el costo de la API. Debido a los sub-agentes, hay un aumento en el uso de tokens. Así que, también quieres medir con qué frecuencia o la ventana de contenido, los tokens que tus proyectos de agentes de IA usan y también la memoria porque estos son muy importantes.
Comments