Esta masterclass desafía la dependencia excesiva en la tasa de éxito e introduce un marco más práctico y consciente de la seguridad para evaluar agentes de AI. Basándonos en escenarios de implementación reales, exploramos métricas que capturan mejor la utilidad y fiabilidad del agente, incluyendo el tiempo de finalización, la eficiencia de llamadas a herramientas, la tasa de recuperación de errores y el costo por tarea exitosa.
La sesión mostrará cómo los equipos optimizan involuntariamente las métricas incorrectas, llevando a modos de falla ocultos como reintentos excesivos, uso ineficiente de herramientas, errores silenciosos y costos operativos en aumento. Conectaremos estos problemas con preocupaciones más amplias de seguridad en AI, destacando cómo las prácticas de evaluación deficientes pueden crear una confianza engañosa en el comportamiento del agente.
Los asistentes se irán con estrategias de evaluación concretas, una comprensión más clara de los compromisos en el diseño de agentes y una guía práctica sobre cómo construir métricas que reflejen el rendimiento en el mundo real, no solo victorias en benchmarks.
This talk has been presented at AI Coding Summit 2026, check out the latest edition of this Tech Conference.























Comments