Versión en EspañolES

[EN] Metrics That Actually Matter: Evaluating AI Agents Beyond Success Rate
[ES] Métricas Que Realmente Importan: Evaluando Agentes de AI Más Allá de la Tasa de Éxito

Métricas Que Realmente Importan: Evaluando Agentes de AI Más Allá de la Tasa de Éxito

Senior Data and AI platform at Enerparc AG

Esta masterclass desafía la dependencia excesiva en la tasa de éxito e introduce un marco más práctico y consciente de la seguridad para evaluar agentes de AI. Basándonos en escenarios de implementación reales, exploramos métricas que capturan mejor la utilidad y fiabilidad del agente, incluyendo el tiempo de finalización, la eficiencia de llamadas a herramientas, la tasa de recuperación de errores y el costo por tarea exitosa.

La sesión mostrará cómo los equipos optimizan involuntariamente las métricas incorrectas, llevando a modos de falla ocultos como reintentos excesivos, uso ineficiente de herramientas, errores silenciosos y costos operativos en aumento. Conectaremos estos problemas con preocupaciones más amplias de seguridad en AI, destacando cómo las prácticas de evaluación deficientes pueden crear una confianza engañosa en el comportamiento del agente.

Los asistentes se irán con estrategias de evaluación concretas, una comprensión más clara de los compromisos en el diseño de agentes y una guía práctica sobre cómo construir métricas que reflejen el rendimiento en el mundo real, no solo victorias en benchmarks.

This talk has been presented at AI Coding Summit 2026, check out the latest edition of this Tech Conference.

machine learning

John Robert

16 min

26 Feb, 2026

Comments

Video Summary and Transcription

John Robert, Lead Data and AI Platform Engineer, discute la evaluación de agentes de AI más allá de la tasa de éxito. Habla sobre fallas de proyectos de AI, la singularidad de los agentes de AI y el proceso de evaluación. Creación de un Marco para la Evaluación de Agentes de AI: Cuatro Categorías de Evaluación - rendimiento, negocio, seguridad y costo. Creación de métricas para mejorar proyectos de AI. Incluye tasas de finalización de tareas, calidad de razonamiento, evaluación de precisión, ejecución de herramientas, tiempo de respuesta y verificaciones de tiempo de recuperación. Examinando KPIs, Seguridad y Costo en Proyectos de Agentes de AI: Considerar ROI, satisfacción del usuario, ahorro de tiempo, revisión de código, adopción, compromiso, riesgo, regulaciones, acciones no autorizadas y eficiencia de costos. Verificación de Métricas de Infraestructura y Seguridad: Evaluar la fiabilidad del proyecto, presencia en línea, errores, recursos, inyección de prompts, fugas de datos, acciones autorizadas, uso de herramientas.

Available in English: Metrics That Actually Matter: Evaluating AI Agents Beyond Success Rate

1. Evaluating AI Agents: Overview

Short description:

John Robert, Lead Data and AI Platform Engineer, discute la evaluación de agentes de IA más allá de la tasa de éxito. Habla sobre los fracasos de los proyectos de IA, la singularidad de los agentes de IA y el proceso de evaluación.

Buenos días si estás viendo esto por la mañana, buenas tardes si lo estás viendo por la tarde, y buenas noches si estás viendo esto por la noche. Mi nombre es John Robert y hablaré sobre la evaluación de agentes de IA más allá de la tasa de éxito. Antes de entrar en los agentes de IA, permíteme hablar un poco sobre mí. Como dije anteriormente, mi nombre es John Robert. Soy un Lead Data and AI Platform Engineer en Sonic Lighthouse, una subsidiaria de Enepack en Hamburgo, Alemania. Anteriormente, trabajé en Mercedes y Bosch conducción autónoma, y en varias otras empresas. Tengo más de siete años de experiencia en IA. Obtuve mi maestría en machine learning y data engineering en una universidad aquí en Alemania. Recientemente, comencé a construir lo que llamo Don't Fear AI, donde quiero centrarme en la evaluación de IA, la seguridad de IA y la protección de IA. Aparte de cosas relacionadas con IA, también me encanta viajar. He estado en más de 50 países y también construyo aplicaciones y sitios web cuando tengo tiempo libre. Una de las aplicaciones que acabo de construir se llama Manage Pets AI. Ya está en Apple Store, y se utiliza para gestionar las actividades y la salud de tu mascota. Eso es todo sobre mí.

Ahora, vamos a por qué estamos aquí. Debes haber visto esto en todas partes sobre los fracasos de los proyectos de IA. MIT hizo una encuesta y dijeron que el 95% de los proyectos de IA fallan. También hay una predicción de que el 40% de los proyectos de agentes de IA serán cancelados para 2027. Como usuario, o como propietario de un negocio, o como desarrollador, como empleado, cuando ves noticias como esta, piensas, está bien, en los próximos dos a cinco años, no habrá nada como agentes de IA. No. La razón por la que estos proyectos fallan es porque no están siendo implementados y construidos de la manera correcta. Por eso hoy vamos a hablar sobre la evaluación de agentes de IA. ¿Por qué es diferente el agente de IA? En esta página, tenemos una tabla que muestra y compara agentes de IA con chatbots, con modelos de IA y con software tradicional. Algo que es muy específico sobre los agentes de IA es el hecho de que son indeterministas, son autónomos, y toman acción. Esto lo hace un poco más complejo de construir y usar en nuestro sistema porque entonces le da muchos puntos de fallo.

Entonces, ¿qué es exactamente la evaluación? La evaluación es el proceso de evaluar algo basado en algunos criterios. Por ejemplo, si eres estudiante, evalúas a un estudiante basado en cómo lo hace en sus exámenes. Si estás ordenando algo en Amazon, lo evalúas basado en el sistema de estrellas o métricas de estrellas. Eso significa que puedes darle cinco estrellas o dos estrellas basado en tu experiencia con este producto. En este caso, queremos hacer lo mismo para los agentes de IA porque si entendemos cómo evaluar agentes de IA, nos ayuda a construir mejor los proyectos de agentes de IA y podemos obtener los mejores resultados de ellos.

2. Creating an AI Agent Evaluation Framework

Short description:

Creación de un Marco para la Evaluación de Agentes de IA: Cuatro Categorías de Evaluación - rendimiento, negocio, seguridad y costo. Creación de métricas para mejorar los proyectos de IA. Incluye tasas de finalización de tareas, calidad de razonamiento, evaluación de precisión, ejecución de herramientas, tiempo de respuesta y verificaciones de tiempo de recuperación.

Entonces, tenemos, las últimas dos semanas o la semana pasada, OpenAI lanzó un nuevo modelo, Entropiq lanzó un nuevo modelo, y nos dieron puntos de referencia. Pero como usuario, o como propietario de un negocio, o como empleado, ¿qué significa un punto de referencia? Esto no significa nada para mí o nada para ti porque no te afecta directamente. Entonces, los puntos de referencia son utilizados por grandes laboratorios de IA como Entropiq y OpenAI y Google para medir y evaluar los modelos, pero esto no se traduce directamente al caso de uso del usuario. Y es por eso que hoy vamos a crear un marco para medir y evaluar estos agentes de IA. Sí, tenemos uno de estos puntos de referencia que se llama el último examen de la humanidad. Lo que me interesa es el último cliente de mi empresa, cómo es la retroalimentación para mi empresa, cómo se sienten mis clientes. Así que, el último examen del cliente de mi empresa o lo que sea. Eso es lo que me preocupa. Así que quiero crear una evaluación, quiero evaluar el agente de IA basado en mi caso de uso. Para hacer eso, tenemos un marco.

Entonces, cómo evaluar agentes de IA. Tenemos cuatro categorías aquí, que son la evaluación de rendimiento, la evaluación de negocio o usuario, la evaluación de seguridad y protección, y también la evaluación de costo y eficiencia. Entonces, basado en esta evaluación, podemos crear métricas y esto nos ayudará a construir proyectos de agentes de IA. Así que, primero para la evaluación de rendimiento, quieres verificar las tasas de finalización de tareas. Quieres verificar la calidad del razonamiento. Así que, cuando un agente proporciona una respuesta, quieres verificar cómo llega a la respuesta porque obtener la respuesta no es solo lo correcto, no es solo lo que quieres. Quieres entender cómo llegó a la respuesta porque esto te ayudará a evaluar cómo va a responder otras preguntas. Para respuestas que ya tienes, para preguntas que ya tienes respuestas, simplemente haces la evaluación de precisión. Eso significa, por ejemplo, quieres verificar la, tienes la pregunta sobre la capital de Alemania, que es Berlín. Puedes evaluar eso fácilmente basado en la precisión. Para los agentes de IA, también usan herramientas. Así que, quieres verificar la ejecución de herramientas. También quieres evaluar el tiempo de respuesta porque para tus usuarios, si tienes un agente de IA que responde después de un minuto, entonces vas a perder muchos usuarios. Así que, también quieres verificar el tiempo de respuesta de este agente de IA cuando estás construyendo un proyecto de agente de IA.

Luego, quieres verificar el tiempo de recuperación. Así que, a veces los agentes de IA entran en lo que llamamos bucles infinitos, donde simplemente está dando vueltas en un círculo en un bucle. Así que, quieres verificar si este agente puede recuperarse de este bucle y darte algo más valioso. Así que, hay otras evaluaciones que puedes hacer basadas en el rendimiento, pero estas son algunas de las evaluaciones que son muy importantes. Luego, pasamos a la evaluación de negocio y usuario. Aquí es donde necesitas pensar en tu caso de uso.

3. Examining KPIs, Safety, and Cost in AI Projects

Short description:

Examinando KPIs, Seguridad, Protección y Costo en Proyectos de Agentes de IA: Considerar ROI, satisfacción del usuario, ahorro de tiempo, revisión de código, adopción, compromiso, riesgo, regulaciones, acciones no autorizadas y eficiencia de costos.

Necesitas pensar en los KPIs de tu empresa. Entonces, ¿cuál es el retorno de inversión basado en este proyecto de agente de IA? ¿Cuánto ingreso estamos obteniendo después de implementar el proyecto de agente de IA? ¿Cuál es la satisfacción del usuario? Entonces, ¿aparecieron nuestros usuarios después de que hemos introducido este agente de IA en nuestros sistemas, en nuestro proceso? Y si estás usando agentes de IA en tu flujo de trabajo, ¿cuánto tiempo ahorra? Como sabes, los agentes de IA toman acción. También quieres revisar las acciones de este agente de IA. Así que, necesitas humanos en el bucle. Si tuvieras humanos en el bucle, ¿cuánto tiempo le toma al humano evaluar? Por ejemplo, en el desarrollo de software, necesitas revisar el código generado por el agente de IA. ¿Toma más tiempo para que el desarrollador revise el código? Entonces, ¿cuánto tiempo toma? ¿Es mejor que el desarrollador cree el código por sí mismo o escriba el código por sí mismo y haga la evaluación? O, ¿es mejor o toma más tiempo si permites que los agentes escriban el código? Pero, en la mayoría de los casos, los agentes son realmente buenos para construir código. Como ya podemos ver de Entropic Cloud Code y de esta nueva herramienta, que se llama OpenCloud, puedes ver lo buenos que son los agentes de IA escribiendo código. Como empresa, también quieres verificar la adopción y el compromiso de tus usuarios, de los clientes, cuánto se involucran después de que has introducido el agente de IA. Entonces, esto se enfoca solo en tu caso de uso como negocio o como usuario.

Ahora, esta evaluación de seguridad y protección es algo de lo que mucha gente no habla, pero esta es una de las evaluaciones más importantes para proyectos de agentes de IA. La alucinación y detección es algo en lo que la mayoría de los grandes laboratorios ya están trabajando, y la tasa ya está reduciendo. Pero, el impacto de riesgo y responsabilidad también es importante. Por ejemplo, hubo un caso donde un agente de IA dio un 80% de descuento a un cliente. El cliente pasó algún tiempo para convencer al agente de IA de darle un 80% de descuento. Ahora, la pregunta es, en este tipo de situación, ¿quién es responsable de ello? ¿Es el cliente que convenció al agente de IA? ¿Es la empresa que implementó el agente de IA? ¿Es la empresa que proporcionó los modelos detrás del agente de IA? Pero, una vez que estás construyendo un proyecto de agente de IA, quieres crear mecanismos o métricas para medir este riesgo de los usuarios. Luego, vivo en Alemania, en Europa. En Europa, las regulaciones y políticas son cinco y seis. Entonces, tenemos muchas regulaciones, muchas políticas que necesitamos cumplir al construir herramientas de IA. El único problema es que dado que estos agentes de IA son nuevos y evolucionan cada día, la mayoría de estas políticas no están cumpliendo con los estándares. Entonces, como empresa o como usuario, también quieres tener esta regulación basada en tu caso de uso. Para los agentes de IA, toman acciones. A veces, toman acciones no autorizadas. Así que, quieres medir con qué frecuencia tus proyectos de agentes de IA intentan acciones no autorizadas. Recientemente, de este open cloud, hubo una situación donde la mayoría de los nombres de usuario y tokens de API de los usuarios fueron filtrados en línea. Así que, también quieres medir los incidentes cuando los datos, los datos PPI, se vinculan o filtran en línea.

Luego, la cuarta evaluación que es muy importante es el costo y la eficiencia. Entonces, construir un proyecto de agente de IA no es suficiente si no es eficiente y si es muy costoso. Así que, quieres verificar el uso de tokens y el costo de la API. Debido a los sub-agentes, hay un aumento en el uso de tokens. Así que, también quieres medir con qué frecuencia o la ventana de contenido, los tokens que tus proyectos de agentes de IA usan y también la memoria porque estos son muy importantes.

4. Checking Infrastructure and Security Metrics

Short description:

Verificación de Métricas de Infraestructura y Seguridad: Evaluar la fiabilidad del proyecto, presencia en línea, errores, recursos, inyección de prompt, filtraciones de datos, acciones autorizadas, uso de herramientas.

Luego, si has desplegado el proyecto, querrás verificar la infraestructura y el costo de escaneo. Quieres comprobar cuán confiable es este proyecto, con qué frecuencia está en línea, con qué frecuencia se rompe, con qué frecuencia obtienes errores. También querrás verificar los recursos que utilizas al desplegar este agente de IA. Así que, estos son los cuatro marcos de evaluación que puedes usar para medir el valor y la calidad de tu proyecto de agente de IA.

Por ejemplo, para las métricas de seguridad y protección, puedes crear una métrica basada en cada evaluación. Así que, algunas métricas para seguridad y protección, tenemos las tasas de éxito de inyección de prompt. Quieres verificar cuántas inyecciones de prompt obtienes y la tasa de éxito de esta inyección de prompt. También quieres verificar las filtraciones de datos y las filtraciones de PPI. Eso significa la información personal que ha sido filtrada. Quieres verificar las tasas de acciones autorizadas y no autorizadas. Quieres monitorear el comportamiento de tus agentes de IA y sub-agentes. Y también quieres verificar el uso de herramientas. Así que, puedes crear métricas basadas en cada una de estas evaluaciones.

No tengo suficiente tiempo, pero también habría desglosado cada una de las evaluaciones. Te habría dado ejemplos de métricas que necesitas. Así que, los agentes de IA nos harán superhumanos si los diseñamos y usamos correctamente. Diseñarlos significa que debes tener la evaluación correcta. Debes tener el mecanismo adecuado para verificar las cosas. Y con eso, podemos usar agentes de IA y vamos a obtener el mejor beneficio e incrementar la tasa de éxito de los proyectos de agentes de IA. Estoy seguro de que debes tener muchas preguntas. Así que, puse los enlaces a mis redes sociales aquí, a mi LinkedIn, a mi Twitter o X, y también a mi Instagram. Muchas gracias.

Available in other languages:

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Transformers.js: Machine Learning de Última Generación para la Web

JSNation 2025

27 min

Transformers.js: Machine Learning de Última Generación para la Web

Joshua Lochner

HuggingFace

Joshua introduces Transformers JS and Hugging Face, emphasizing community collaboration and pre-trained models. Transformers JS evolution led to 1.4 million monthly users, supporting 155 architectures. The library's browser-based capabilities offer real-time processing, cost-efficiency, and scalability. Integration enhancements include native web GPU execution and React Native implementation. Web ML implementation focuses on Onyx Runtime for device execution and web GPU for resource optimization. Browser-based ML applications cover vision, speech recognition, and text-to-speech. Advanced implementations include multimodal applications and educational tools. Interactive AI demonstrations showcase semantic search and conversational AI scenarios. Model licensing transitions to ECMAScript for efficiency and model redownloading factors are discussed.

machine learning webgpu

TensorFlow.js 101: Aprendizaje automático en el navegador y más allá

ML conf EU 2020

41 min

TensorFlow.js 101: Aprendizaje automático en el navegador y más allá

Jason Mayes

Web AI Lead at Google.

TensorFlow.js enables machine learning in the browser and beyond, with features like face mesh, body segmentation, and pose estimation. It offers JavaScript prototyping and transfer learning capabilities, as well as the ability to recognize custom objects using the Image Project feature. TensorFlow.js can be used with Cloud AutoML for training custom vision models and provides performance benefits in both JavaScript and Python development. It offers interactivity, reach, scale, and performance, and encourages community engagement and collaboration between the JavaScript and machine learning communities.

tensorflow machine learning innovation tensorflow react

Uso de MediaPipe para Crear Aplicaciones de Aprendizaje Automático Multiplataforma con React

React Advanced 2021

21 min

Uso de MediaPipe para Crear Aplicaciones de Aprendizaje Automático Multiplataforma con React

Workshops on related topic

¿Pueden los LLM aprender? Personalicemos un LLM para chatear con tus propios datos

C3 Dev Festival 2024

48 min

¿Pueden los LLM aprender? Personalicemos un LLM para chatear con tus propios datos

WorkshopFree

Andreia Ocanoaia

Sientes las limitaciones de los LLMs? Pueden ser creativos, pero a veces carecen de precisión o se basan en información desactualizada. En esta masterclass, desglosaremos el proceso de construir y desplegar fácilmente un sistema de Generación con Recuperación Mejorada. Este enfoque te permite aprovechar el poder de los LLMs con el beneficio adicional de precisión factual e información actualizada.

machine learning artificial intelligence openai

Aprovechando LLMs para Construir Experiencias de IA Intuitivas con JavaScript

JSNation 2024

108 min

Aprovechando LLMs para Construir Experiencias de IA Intuitivas con JavaScript

Workshop

2 authors

Hoy en día, todos los desarrolladores están utilizando LLMs en diferentes formas y variantes, desde ChatGPT hasta asistentes de código como GitHub CoPilot. Siguiendo esto, muchos productos han introducido capacidades de IA integradas, y en este masterclass haremos que los LLMs sean comprensibles para los desarrolladores web. Y nos adentraremos en la codificación de tu propia aplicación impulsada por IA. No se necesita experiencia previa en trabajar con LLMs o aprendizaje automático. En su lugar, utilizaremos tecnologías web como JavaScript, React que ya conoces y amas, al mismo tiempo que aprendemos sobre algunas nuevas bibliotecas como OpenAI, Transformers.js

machine learning artificial intelligence openai

Deja que la IA sea tu Documentación

JSNation 2024

69 min

Deja que la IA sea tu Documentación

Workshop

Jesse Hall

Únete a nuestro masterclass dinámico para crear un portal de documentación impulsado por IA. Aprende a integrar ChatGPT de OpenAI con Next.js 14, Tailwind CSS y tecnología de vanguardia para ofrecer soluciones de código e resúmenes instantáneos. Esta sesión práctica te equipará con el conocimiento para revolucionar la forma en que los usuarios interactúan con la documentación, convirtiendo las búsquedas tediosas en descubrimientos eficientes e inteligentes.
Aspectos destacados:
- Experiencia práctica en la creación de un sitio de documentación impulsado por IA.- Comprensión de la integración de la IA en las experiencias de usuario.- Habilidades prácticas con las últimas tecnologías de desarrollo web.- Estrategias para implementar y mantener recursos de documentación inteligente.
Tabla de contenidos:- Introducción a la IA en la documentación- Configuración del entorno- Construcción de la estructura de documentación- Integración de ChatGPT para documentación interactiva

frameworks machine learning artificial intelligence

Prácticas con TensorFlow.js

ML conf EU 2020

160 min

Prácticas con TensorFlow.js

Workshop

Jason Mayes

Ven y descubre nuestro masterclass que te guiará a través de 3 recorridos comunes al usar TensorFlow.js. Comenzaremos demostrando cómo usar uno de nuestros modelos predefinidos, clases de JS muy fáciles de usar para trabajar rápidamente con ML. Luego veremos cómo volver a entrenar uno de estos modelos en minutos utilizando el aprendizaje por transferencia en el navegador a través de Teachable Machine y cómo se puede usar en tu propio sitio web personalizado. Finalmente, terminaremos con un hola mundo escribiendo tu propio código de modelo desde cero para hacer una regresión lineal simple y predecir los precios ficticios de las casas en función de sus metros cuadrados.

tensorflow machine learning

La Guía del Autoestopista de la Galaxia de Ingeniería de Aprendizaje Automático

ML conf EU 2020

112 min

La Guía del Autoestopista de la Galaxia de Ingeniería de Aprendizaje Automático

Workshop

Alyona Galyeva

¿Eres un Ingeniero de Software al que se le asignó la tarea de implementar un modelo de aprendizaje automático o aprendizaje profundo por primera vez en tu vida? ¿Te preguntas qué pasos seguir y cómo se diferencia el software impulsado por IA del software tradicional? Entonces este es el masterclass adecuado al que asistir.
Internet ofrece miles de artículos y cursos gratuitos que muestran lo fácil que es entrenar e implementar un modelo de IA simple. Al mismo tiempo, en la realidad es difícil integrar un modelo real en la infraestructura actual, depurarlo, probarlo, implementarlo y monitorearlo correctamente. En este masterclass, te guiaré a través de este proceso compartiendo consejos, trucos y herramientas de código abierto favoritas que te facilitarán mucho la vida. Así que al final del masterclass, sabrás por dónde empezar tu viaje de implementación, qué herramientas utilizar y qué preguntas hacer.

machine learning

Introducción al Aprendizaje Automático en la Nube

ML conf EU 2020

146 min

Introducción al Aprendizaje Automático en la Nube

Workshop

Dmitry Soshnikov

Este masterclass será tanto una introducción suave al Aprendizaje Automático, como un ejercicio práctico de uso de la nube para entrenar modelos de aprendizaje automático simples y no tan simples. Comenzaremos utilizando ML Automático para entrenar el modelo para predecir la supervivencia en el Titanic, y luego pasaremos a tareas de aprendizaje automático más complejas como la optimización de hiperparámetros y la programación de series de experimentos en el clúster de cómputo. Finalmente, mostraré cómo Azure Machine Learning se puede utilizar para generar pinturas artificiales utilizando Redes Generativas Adversarias, y cómo entrenar un modelo de preguntas y respuestas de lenguaje en documentos de COVID para responder preguntas relacionadas con COVID.

azure machine learning