Y eso dio una oportunidad a los agentes de operaciones para comparar lo que decían con el chatbot y darnos cualquier retroalimentación. Y por supuesto, necesitamos tener un alto nivel de confianza con esa puerta de etapa antes de pasar al contacto con el cliente. Aquí es donde el problema comenzó a surgir. Si le haces una pregunta al chatbot que no está en su base de conocimiento, la mayoría de las veces escalará a un humano, pero algunas veces simplemente inventará algo, lo cual estoy seguro que no sorprende a nadie, su trabajo con LLMs. Era bastante bueno, pero una precisión del 90 al 95% no era suficiente para algo que va a hablar con clientes miles de veces a la semana. Y aquí fue donde el problema comenzó a surgir, ¿verdad? Complejidad. Tuvimos mucho de esto cubriendo las grietas de un pequeño problema de LLM. Te está mintiendo, bien, ¿cómo solucionamos eso? Ponemos algo de validación después de que da su respuesta para solo verificar, ¿es esto fácticamente correcto? Y tal vez eso funcione bastante bien, pero en última instancia tenemos que construir la validación y probarla antes de saber. Así que no solo tienes la complejidad de una especie de solución tras solución, sino que es muy difícil de estimar porque realmente no sabemos qué tan bien va a funcionar.
No necesitas leer esta diapositiva, pero solo estaba tratando de darlo como un ejemplo de la complejidad con la que tuvimos que lidiar. Creo que necesitábamos duplicar el equipo a al menos cuatro desarrolladores y trabajar en ello por mucho más tiempo para llegar a un sistema adecuadamente en producción. Así que la complejidad y la incertidumbre realmente hicieron de este un proyecto fallido, en última instancia. Para dar un ejemplo contrario, hemos construido otros proyectos de IA dentro de Capital OnTap. Tenemos uno llamado Blaze, que es esencialmente transcripción de IA y resumen de llamadas de clientes. Es un poco más complejo que eso, pero es bastante sencillo. Y eso fue construido por el equipo de ingeniería de operaciones. Así que comenzó en el equipo correcto. Comenzó con un enfoque muy de producto, y comenzamos con el seguimiento de métricas operativas. Así que después de una llamada telefónica, el agente de operaciones hace el cierre, y hemos reducido ese tiempo de tres minutos a dos, lo cual es un impacto masivo para 600 llamadas al día. Así que llegó el momento de la decisión para Merlin, nuestro chatbot. Tuvimos que decidir qué hacer con él.
Habíamos gastado al menos 200K en salarios de personas, como los involucrados, y costos de LLM. Y tuvimos que decirle al negocio, mira, esto que pensabas que estaba a semanas de distancia en realidad va a ser pausado y ahora está a meses de distancia. Pero el CEO entiende la falacia del costo hundido, así que lo matamos y decidimos buscar proveedores externos. En última instancia, decidimos que esto no era nuestra competencia principal para un proyecto tan complejo, y deberíamos centrarnos en el lado fintech de las cosas y proyectos de IA más simples que podamos manejar dentro de los equipos de producto, pero ir con terceros para algo tan complicado como esto. Así que teníamos dos proveedores que nos gustaban. Básicamente, solo encontramos otros negocios que se habían integrado con ellos y fuimos a hablar con ellos solo para ver cómo se desempeñaban.
Comments