Y por lo que vale, gpt40 es un modelo de finalización de chat, pero DeepSeek es un modelo de razonamiento. Así que gpt40 ya está de vuelta. Aquí están las respuestas porque solo lo pediste. He terminado. El razonamiento sigue pensando y diciendo, espera, déjame entender el matiz de esta pregunta. Y voy a volver. Y ahí lo hizo. ¿Verdad? Ahora, inmediatamente, esto es genial para mí porque con un solo prompt, pude ejecutar mi app pregunta en múltiples modelos, verlo, y estoy mirando y diciendo, ¿sabes qué? Creo que voy a usar gpt40. Bastante bien, ¿verdad?
Así que ahora, lo siguiente, eso fue productividad e ideación. ¿Qué tal la evaluación? ¿Cómo funciona la evaluación? Ahora, por defecto, usamos algo llamado evaluación asistida por IA, que ya está expuesta a IA. Déjame explicar. Cuando haces una app con IA, básicamente estás escribiendo un prompt y lo estás probando manualmente, ¿verdad? Escribes este prompt, revisas las respuestas y así sucesivamente. Pero cuando quieres probarlo contra un gran número de entradas, necesitas escalarlo. ¿Cómo vas a escalarlo? El lenguaje natural significa que podría ser cualquier cosa. Lo escalas creando otra IA para calificar la primera. Lo llaman LLM como juez. Y así, efectivamente lo que tienes es que primero entrenas una IA para responder preguntas de clientes, y luego has entrenado otra IA para calificar la primera IA. Y la forma en que lo hace, y te lo voy a mostrar en un segundo, usamos una tecnología llamada Prompty, pero hay otras formas de hacerlo, es que escribe lo que se llama un evaluador. Y aquí, déjame ver si puedo encontrar esa carpeta para ti por un segundo. Estará bajo source. Vamos a ver cómo se ve eso. Así que aquí, bajo evaluadores, tengo un evaluador personalizado para coherencia. Así que la coherencia está diciendo, hey, la respuesta que regresa, quiero que tú, mi IA, uses este template de prompt, tomes la respuesta de mi chat IA, y quiero que uses estas instrucciones para calificarlo. Y las instrucciones dicen califícalo en una escala del uno al cinco. Y aquí hay ejemplos de cómo se ve un uno, cómo se ve un dos. Usa esto para averiguar cómo calificarlo y dame una calificación. Y así, si miro esto, tengo un ejemplo de un evaluador personalizado. Pero soy alguien que quiere escribir un nuevo evaluador personalizado para mi app. Así que lo que voy a decir es, hey, quiero tener una nueva métrica llamada Emojiness. Y lo que quiero que hagas es quiero que tomes esta coherencia como un ejemplo, y quiero que crees un nuevo evaluador para mí que va a construir una calificación del uno al cinco, que vea cuántos emojis hay en esa respuesta particular.
Comments