Flujo de Trabajo de Ingeniero de IA de Extremo a Extremo: Desafíos de Productividad y Sus Soluciones

This ad is not shown to multipass and full ticket holders
React Summit US
React Summit US 2025
November 18 - 21, 2025
New York, US & Online
The biggest React conference in the US
Learn More
In partnership with Focus Reactive
Upcoming event
React Summit US 2025
React Summit US 2025
November 18 - 21, 2025. New York, US & Online
Learn more
Bookmark
Rate this content

Construir aplicaciones de IA generativa requiere una mentalidad de GenAIOps que te lleva en un viaje desde la selección de modelos hasta la ideación de prompts, la evaluación de prototipos y el despliegue de aplicaciones. En esta masterclass, exploraremos el viaje de GenAIOps desde la perspectiva de un Ingeniero de IA e identificaremos los desafíos de productividad, así como las soluciones de herramientas que pueden mitigar estos problemas y ayudar a optimizar su experiencia como desarrollador.

This talk has been presented at Productivity Conf for Devs and Tech Leaders, check out the latest edition of this Tech Conference.

Nitya Narasimhan
Nitya Narasimhan
22 min
27 Mar, 2025

Comments

Sign in or register to post your comment.
  • Va Da
    Va Da
    P4
    AI is taking over the world.
Video Summary and Transcription
La masterclass de hoy explora los desafíos de productividad y las soluciones para ingenieros de IA, centrándose en una aplicación llamada Contoso Chat. El flujo de trabajo de extremo a extremo se examina desde una perspectiva de productividad, introduciendo el concepto de Exposición a la IA. Construir una aplicación de IA implica etapas de ideación, aumento y operacionalización. La provisión y configuración son pasos cruciales, siendo la infraestructura como código una herramienta de productividad. GitHub Codespaces y contenedores de desarrollo proporcionan entornos de desarrollo consistentes. Azure AI Inference API permite una fácil iteración y prototipado. La evaluación asistida por IA implica entrenar modelos de IA y usar evaluadores para calificar respuestas. Se pueden crear evaluadores personalizados. En general, la masterclass enfatiza la importancia de la productividad a lo largo del viaje del ingeniero de IA.

1. Introducción

Short description:

Hoy, quiero hablar sobre los desafíos de productividad y las soluciones para el viaje de los ingenieros de IA. Distinguiré entre aplicaciones y operaciones y exploraré el uso de eficiencias basadas en IA. Nos centraremos en una aplicación llamada Contoso Chat para descubrir cómo la IA puede mejorar la productividad a lo largo del flujo de trabajo. Un ingeniero de IA tiene las habilidades para elegir y personalizar un modelo de lenguaje grande, evaluar su rendimiento y desplegarlo para aplicaciones del mundo real.

Hola, mi nombre es Nithya Narasimhan y soy una defensora de la IA en Microsoft. Hoy, quiero hablarles sobre los desafíos de productividad y las soluciones para el viaje de los ingenieros de IA desde el catálogo hasta el código y la nube. Pero para establecer el escenario, en realidad quiero comenzar preguntando, ¿qué significa productividad y quién es este ingeniero de IA? Y quiero pensarlo en dos pasos.

Primero, quiero distinguir entre aplicaciones y operaciones. Y segundo, quiero usar esta pregunta realmente interesante, ¿está mi tarea expuesta a la IA?, como una forma de preguntar, ¿hay espacio para eficiencias basadas en IA en este paso de mi flujo de trabajo?

Para la mayor parte de esta charla, realmente nos centraremos en establecer el escenario con una aplicación llamada Contoso Chat en la que he estado trabajando durante un año o más y usar eso para caminar a través de este flujo de trabajo de extremo a extremo y decir, en cada etapa de esto, ¿hay espacio para eficiencias y productividad con IA? Así que para establecer el escenario, todos nosotros, cuando pensamos en IA y productividad, realmente estamos pensando en nosotros mismos como desarrolladores de aplicaciones. Y estamos usando IA para la eficiencia en nuestros flujos de trabajo de codificación. Eso significa que podríamos estar esbozando una nueva aplicación. Podríamos estar escribiendo pruebas. Podríamos estar escribiendo documentación, depurando, obteniendo explicaciones, etc.

2. Productivity Perspective

Short description:

Veamos el flujo de trabajo de extremo a extremo desde una perspectiva de productividad. El libro de Chip Huyan sobre Ingeniería de IA introduce el concepto de Exposición a la IA, donde las tareas pueden considerarse expuestas a la IA si reduce el tiempo de finalización en un 50% o más.

Ahora, eso es mucho. Pero, ¿cómo puedo ver ahora ese flujo de trabajo de extremo a extremo desde una perspectiva de productividad? Y quiero recomendarles a todos que lean este libro si no lo han hecho. Este es el libro de Chip Huyan sobre Ingeniería de IA. Y dentro del primer capítulo o así, ella realmente tiene este término que llamó mi atención llamado Exposición a la IA. Y proviene de este artículo llamado Elundo et al. Pero lo que realmente me gustó es que dice que la exposición a la IA. Define una tarea como expuesta a la IA si la IA y el software potenciado por IA pueden reducir el tiempo necesario para completar esa tarea en al menos un 50%. Y pensé que esto es algo que puedo medir.

3. Contoso Chat Application

Short description:

En esta parte, exploramos una aplicación llamada Contoso Chat. Es un sitio web de comercio minorista que utiliza un chatbot para ayudar a los clientes a encontrar productos. El chatbot necesita ser conversacional, basado en datos, contextual y seguro. Construir aplicaciones de IA así puede ser complicado y requiere un cambio de paradigma.

Así que si en mi flujo de trabajo de extremo a extremo, si hay partes de ese flujo de trabajo donde realmente puedo usar IA para reducir el tiempo que me habría tomado hacer la tarea, entonces eso es una medida de productividad.

Así que ahora hablemos realmente de una aplicación. Así que voy a reproducir esto. Y esta es Contoso Chat. Así que Contoso Chat es esta aplicación que probablemente es familiar para muchos de ustedes. Es una aplicación de comercio minorista genérica. Y voy a ver si puedo reproducir esto y dejar que se acelere un poco.

Así que cuando miramos esto, esto es el equivalente a un sitio web de comercio minorista. Y tiene un montón de productos. Es un sitio web de camping y senderismo. Y lo que se han dado cuenta es que los clientes que vienen aquí no pueden encontrar las cosas que quieren. Así que llaman a la línea de atención al cliente y están perdiendo ventas. Así que deciden integrar un chatbot directamente en el sitio para que los clientes puedan chatear con su catálogo de productos. Así que quieren cuatro características.

Primero, tiene que ser conversacional. Un cliente debería poder hacer preguntas de la misma manera que lo haría en una línea de atención al cliente utilizando lenguaje natural. Y debería responder en lenguaje natural, de manera conversacional. Segundo, debería poder fundamentar las respuestas en los datos de ese sitio. Así que si un cliente dice, ¿qué debería comprar para un viaje a Andalucía? Debería responder con contenido de ese catálogo, esta tienda de campaña, esas cosas de camping, etc. Tercero, debería ser contextual. Dado que el cliente ha estado chateando, debería conocer el historial de chat. También podría usar el inicio de sesión del cliente para decir, está bien, déjame revisar tus compras anteriores. Y puede usar eso contextual para ayudar a proporcionar respuestas relevantes a sus preguntas. Por último, pero no menos importante, tiene que ser seguro. Lo que eso significa es que queremos asegurarnos de que los usuarios malintencionados no puedan hacer cosas como jailbreak al sistema. No deberían poder preguntarme cuáles son mis reglas o intentar cambiar mis reglas. Y necesito programar eso en el sistema también.

Eso es mucho. Construir aplicaciones de IA generativa puede ser complicado. Y requiere que tengamos un cambio de paradigma.

4. Construyendo una Aplicación de IA de Extremo a Extremo

Short description:

Construir una aplicación de IA de extremo a extremo implica tres etapas: ideación, augmentación y operacionalización. En la fase de ideación, el ingeniero de IA selecciona modelos y los prueba con un solo prompt. En la fase de augmentación, el modelo se personaliza y evalúa utilizando diversas entradas. Finalmente, la aplicación se operacionaliza pasando por múltiples pasos, con un enfoque en la productividad y la consistencia tanto a nivel individual como de equipo.

Porque el lenguaje natural para entradas y salidas significa que no hay fin de posibilidades. Y necesitamos verificar contra todas ellas. Así que cuando piensas en construir un extremo a extremo, realmente estamos pensando en tres etapas.

La primera ideación es donde tu ingeniero de IA dice, ¿cuál es mi aplicación? ¿Qué modelo debería usar? Así que aquí sé que voy a hacer generación aumentada por recuperación. Así que sé que necesito elegir al menos un modelo de embedding y un modelo de chat. Pero luego en esta primera fase, obtienen un modelo y hay tantas opciones. ¿Qué modelo elijo? Elijo uno. Y luego lo pruebo con un solo prompt y digo, ¿hace lo que creo que necesito para mi app? Y si lo hace, OK, tengo mi modelo, puedo pasar a la siguiente etapa.

En la siguiente etapa, entonces empiezo a aumentarlo. Empiezo a personalizar ese modelo. Este es el momento en que hago ingeniería de prompts. Este es el momento en que traigo datos de otras fuentes para RAG. Este es el momento en que podría tener que afinar. Pero independientemente, ahora he llegado a un punto donde realmente lo he convertido en un prototipo robusto. Y he estado haciendo esto probándolo con un solo prompt manualmente. Pero en esta etapa, también hago evaluación. Tomo un montón de conjuntos de datos y digo, quiero realizar una evaluación a gran escala, probar contra diversas entradas y ver si los métricas de calidad y seguridad se mantienen. En ese punto, estoy listo para pasar a la operacionalización.

Ahora, esto parece muy simple, ¿verdad? No tan rápido. Si miras bajo la superficie, hay un montón de pasos. Aquí es donde necesito productividad porque tengo que asegurarme de pasar por todos estos pasos. Y si de alguna manera pudiera usar IA para acelerar esto, eso sería una eficiencia. Así que veamos cuáles son los desafíos. De hecho, podemos pensar en los desafíos de dos maneras diferentes. Primero, hay productividad a nivel de desarrollador individual. Segundo, hay productividad a nivel de equipo. Y esas son dos cosas diferentes. A nivel individual, es como decir, cualquier tarea en la que esté trabajando, ¿puede la IA ayudarme a hacerla eficiente? Pero cuando pensamos en el equipo en su conjunto, porque este es un proyecto complejo, realmente queremos pensar en consistencia y reproducibilidad. Cualquier tipo de técnica o herramienta que vayamos a usar tiene que funcionar para todos. Y así, cuando pensamos en el flujo de trabajo, realmente quiero que pienses en estos pasos.

5. Provisioning and Setup

Short description:

El aprovisionamiento implica asegurar la disponibilidad de los recursos necesarios en la nube, como Azure Managed Identity para autenticación, Azure Container Apps para alojar la aplicación, Azure OpenAI Service para desplegar modelos, Azure AI Search para recuperación de conocimiento y Cosmos DB para la base de datos de clientes e historial. El aprovisionamiento se realiza en el lado de la infraestructura, mientras que la configuración se centra en el entorno de desarrollo. Para mejorar la productividad en estos pasos, se puede utilizar infraestructura como código, que permite definir las necesidades de infraestructura a través de archivos en la base de código.

Aprovisionamiento y configuración. {{^}}El aprovisionamiento es donde digo que este es el diagrama de arquitectura para mi aplicación. Y necesito asegurarme de que tengo todos esos recursos aprovisionados en la nube. Así que aquí, tengo Azure Managed Identity. Necesito algún recurso para autenticación. Tengo Azure Container Apps. Necesito algún recurso para alojar mi aplicación. Azure OpenAI Service. Necesito un recurso que desplegará mis modelos. Azure AI Search. Necesito un recurso que hará la recuperación de conocimiento para mí. Cosmos DB. Necesito un recurso que tenga mi base de datos de clientes e historial. Y así sucesivamente.

El aprovisionamiento se realiza en el lado de la infraestructura. La configuración se trata realmente de mi entorno de desarrollo. Y así, esos dos primeros pasos son solo yo preparándome para comenzar a construir, ¿verdad? Una vez que haga eso, tengo que pasar por idear, evaluar y desplegar. Así que echemos un vistazo a cómo podemos comenzar a ver la productividad en estos pasos. Productividad y aprovisionamiento. Así que rápidamente les voy a mostrar que, por un lado, tengo un espacio de código en ejecución, que tiene el repositorio de Contoso chat. Y por el otro lado, tengo un espacio de código en ejecución, que tiene un espacio de código de modelos de GitHub. Y hablaremos de cada uno de estos en un minuto. Pero en mi primer paso, quiero mirar el aprovisionamiento de infraestructura. ¿Cómo podría hacer eso eficiente? Así que quiero preguntar, ¿qué está expuesto a IA en este paso? Y resulta que la solución tanto al desafío de consistencia en el equipo como a la exposición a IA proviene de la misma fuente. Voy a usar infraestructura como código. Infraestructura como código es donde puedo definir mis necesidades de infraestructura a través de archivos que puedo poner en mi base de código. Así que aquí, déjame cerrar esto un poco para que puedas ver claramente. De hecho, tengo este archivo YAML de Azure, y esto me está diciendo qué recursos se van a necesitar. Así que dice, OK, primero que nada, aquí están las aplicaciones y recursos de nivel superior que necesitaré para configurar en variables de entorno. Hay una carpeta de infraestructura aquí, que tiene más detalles sobre cada recurso que necesito implementar.

6. Infrastructure and Development

Short description:

En el momento en que he definido mi infraestructura como código, todos en mi equipo obtienen la misma experiencia. El Azure Developer CLI o AZD puede leer archivos de infraestructura y manejar el aprovisionamiento. Copilot Edits permite modificaciones rápidas de código. La infraestructura como código y la configuración como código aseguran consistencia en todo el equipo. Los contenedores de desarrollo proporcionan un contenedor con dependencias preinstaladas para un entorno de desarrollo consistente.

Y estos son todos archivos. ¿Por qué es eso importante? En el momento en que he definido mi infraestructura como código, puedo registrarlo, y ahora todos en mi equipo obtienen la misma experiencia exacta. Hay una herramienta llamada Azure Developer CLI o AZD, que sabe cómo leer estos archivos de infraestructura y realmente hacer el aprovisionamiento por mí, lo que significa que si quiero cambiar algo, puedo comprometerlo a los datos en el repositorio, y todos en mi equipo recibirán ese mismo cambio y la misma experiencia de aprovisionamiento lista para usar.

Pero espera, en el momento en que es código, ahora puedo usar Copilot para hacer algo cuando quiero modificarlo. Así que aquí, volvamos a esto. De hecho, estoy usando esta nueva función llamada, si no la has probado, definitivamente deberías. Déjame ir primero a obtener mi aviso. Copilot Edits te permite básicamente hacer ediciones con múltiples archivos. Es una nueva función, así que puedes, si instalas la extensión de chat de Copilot y miras el stab, puedes probarlo. Pero aquí, lo que realmente quería hacer, y voy a cerrar este archivo solo para darte la experiencia completa, puedo entrar aquí y voy a copiar ese aviso que tenía en mi diapositiva, que dice, hey, sé que AZD maneja esta infra y no sé nada sobre Bicep o Terraform. ¿Puedes simplemente localizar dónde está el archivo que habla sobre modelos de IA y cambiar la capacidad de GPT-4 a 40? Porque parece que necesito más código. Y he aquí, si viste eso, encontró el archivo y continuó diciendo, hey, esta es la línea para cambiar la capacidad. ¿Debería hacerlo ahora? Por ahora, voy a deshacer esto porque este es código que funciona y no quiero cambiarlo. Pero ves lo rápido que fue. Así que, mira la cantidad de tiempo que ahorré. No sabía nada sobre AZD. No sé nada sobre YAML. No sé nada sobre Bicep, no sé dónde está el archivo. Me ahorró todo el tiempo. Dije lo que quería que se hiciera. Se hizo porque la infraestructura era como código.

A continuación, eso fue para la parte de aprovisionamiento. Ahora queremos hablar sobre el desarrollo. Así que el aprovisionamiento se trataba de infraestructura. ¿Qué pasa con el entorno de desarrollo? Lo mismo. La forma en que tenemos infraestructura como código, ahora tenemos esta capacidad llamada configuración como código. Si puedo definir mi configuración en archivos que se registran en mi base de código, entonces todos en el equipo obtienen la misma experiencia exacta. En este caso, logramos esto a través de algo llamado dev container o contenedor de desarrollo. Un dev container es una configuración de contenedor Docker que puedes registrar en tu base de código. Y todos los que revisan tu código básicamente activan ese contenedor y están obteniendo un contenedor con todas las dependencias preinstaladas.

7. GitHub Codespaces and Development Environment

Short description:

En el caso de GitHub Codespaces, puedes lanzar el contenedor de desarrollo desde el repositorio de GitHub y obtener la misma experiencia. La configuración es un archivo de código, lo que permite modificaciones fáciles. Modifica el entorno de desarrollo con un esfuerzo mínimo. Agrega características para diferentes dependencias en el contenedor de desarrollo.

En el caso de GitHub Codespaces, puedes ir al repositorio de GitHub y literalmente lanzar el contenedor de dev desde el repositorio y obtendrás este contenedor configurado en una VM en la nube de Azure listo para usar sin esfuerzo de tu parte. Y todos en el equipo obtienen la misma experiencia exacta.

De nuevo, ahora la configuración es un archivo de código, así que puedo cambiarlo. Así que aquí voy a hacer una especie de demostración divertida. Antes de comenzar con esto, miré qué extensiones podría instalar. Así que hay esta extensión realmente genial llamada VS Code Pets, te la voy a mostrar en un minuto. Y lo que hace es poner pequeñas mascotas en tu línea de tiempo que siguen caminando mientras codificas. Pensé que era bastante lindo. Ahora, no estoy diciendo que esto va a aumentar tu productividad o tal vez sí, pero lo que realmente quería decirte es que puedes ver que en realidad tengo un dev container.json.

Supongamos que no sabía dónde estaba, no sabía nada al respecto. Solo puse esta extensión en mi VS Code, y estoy como, wow, esto es realmente genial. Quiero que se integre en la base de código para que todos lo obtengan la próxima vez.

8. Adding Extensions to Dev Container

Short description:

Hablando sobre la facilidad de agregar extensiones, como la extensión de VS Code pets, a la configuración del contenedor de desarrollo. Modifica el entorno de desarrollo con un esfuerzo mínimo y agrega características para diferentes dependencias en el contenedor de desarrollo.

Ahora, estoy hablando de ello como una extensión de mascotas, pero podría haber sido algo un poco más sustancial. Podría haber sido una extensión de Azure para copilot, etc. Pero por ahora, solo para mostrarte lo fácil que es, lo siento, ese es el aviso incorrecto. Déjame ir y agarrar el nuevo aviso.

Así que este nuevo aviso, estoy diciendo, OK, en esta base de código, me gustaría que tú, copiar y pegar errores. OK. Así que voy a hacer que agregues la extensión de VS Code pets a mi configuración del contenedor de desarrollo. Y recuerda, tal vez no sepa dónde está el archivo del contenedor de desarrollo. No sé dónde agregarlo dentro de ese archivo, etc. Lo que puede hacer es averiguarlo por mí, revisa y allí, lo ha agregado allí. ¿Verdad? Así que voy a deshacer esto por ahora, pero ya entiendes la idea. Es súper fácil.

Ahora, aquí, solo te mostré cómo puedes modificar tu entorno de desarrollo y luego registrarlo con un esfuerzo muy mínimo. Pero no podrías pensar en ese contenedor de desarrollo como el lugar donde estás agregando otras dependencias. Por favor, adelante y agrega una característica para el entorno de Node, agrega una característica para el Azure CLI, agrega una característica para soportar Jupyter Notebooks, etc. Así que esto es desarrollo.

9. Building with Azure AI Inference API

Short description:

Elegir un modelo y probarlo con un prompt utilizando el Azure AI Inference API permite una fácil iteración y prototipado. La API proporciona una abstracción unificada a cualquier modelo soportado, permitiendo que el código se escriba una vez y los modelos se intercambien con un esfuerzo mínimo.

Ahora lleguemos a donde estamos comenzando a construir la aplicación. ¿Qué está expuesto a AI aquí? Así que en este punto, quiero construir una aplicación eligiendo un modelo y probándolo con un prompt. Y luego quiero iterar sobre ello hasta que obtenga un prototipo funcional. Para hacer esto, en realidad voy a mostrarte algo llamado el Azure AI Inference API, que es algo que todos usamos, pero habrá otros que hacen cosas similares. Y la forma en que esto funciona es la siguiente. Cuando piensas en un modelo y quieres programar para él durante la fase de ideación, tienes que elegir un modelo, tienes que probar el prompt. Y si no es lo suficientemente bueno, tienes que desecharlo, ir y desplegar un nuevo modelo, probar un prompt, y así sucesivamente. ¿No sería genial si en esta primera fase, tuvieras la capacidad de simplemente, desde un lugar, probar varios modelos con un prompt sin tener que pasar por todo este lío? ¿Podría hacerlo más productivo? Bueno, resulta que cada modelo tiene un SDK o alguna biblioteca para que hables con él. Así que OpenAI tiene un OpenAI SDK, Mistral tiene su propio SDK, Coher podría tener el suyo. Así que no importa qué, si empiezo a escribir código, tengo que escribir cada uno de estos y luego tengo que cambiar eso. El Azure AI Inference API elimina ese problema de ti. Te da una abstracción unificada a cualquier modelo que soporte. Y así, lo que harías es escribir tu código para esto, y esto luego se mapearía al modelo específico. Todo lo que le dices es, hey, hoy estoy usando este modelo. Él se encargará de averiguar cómo mapear estas llamadas a un SDK específico del modelo. Y así, ahora puedes escribir tu código una vez e intercambiar modelos con un esfuerzo mínimo. Ese es un truco de productividad justo ahí.

10. GitHub Codespaces Models and Azure Inference API

Short description:

Los Modelos de GitHub Codespaces permiten una fácil experimentación con modelos de vanguardia e ideación. Los ejemplos proporcionados por GitHub incluyen SDKs en bruto e inferencia de Azure. Al ejecutar un ejemplo basic.py, el usuario puede utilizar la API de Inferencia de Azure para hacer una pregunta y recibir una respuesta, mientras también realiza cambios en el código para llamar a dos modelos y modificar la pregunta para un caso de uso específico.

Bueno, espera, podemos hacer más. Porque en el momento en que tengo una API, es código. Y ahora puedo nuevamente intentar hacer cosas con ello desde un copilot para acelerar mi proceso de ideación. Así que aquí estoy usando un espacio de código diferente por una razón muy simple. Esto se llama Modelos de GitHub Codespaces, y de hecho he lanzado un Codespaces sobre eso. Los Modelos de Codespaces están asociados con el Mercado de GitHub. Así que déjame mostrarte los modelos del Mercado de GitHub. OK. Así que si nunca has jugado con ello, deberías. El Mercado de GitHub tiene un montón de modelos disponibles, y no necesitas una cuenta de Azure. Todo lo que necesitas es una cuenta de GitHub. Son gratuitos para usar. Tienen limitaciones de tasa. Pero te da un lugar realmente agradable para que juegues con muchos modelos de vanguardia e idees. Como, obtener una idea de, ¿será esto bueno para mi caso de uso? Ahora, lo que tenemos con el repositorio de Modelos de Codespaces es que GitHub ha configurado todos estos ejemplos usando los SDKs en bruto, pero también la inferencia de Azure.

Así que puedes usar un SDK de Mistral si quieres, pero también hay este SDK de inferencia. Y lo que quiero hacer es quiero proceder y decir, hey, sé que aquí, y voy a ejecutar esto primero, este basic.py, sé que hay este basic.py, que es un ejemplo de la API de Inferencia de Azure. Y lo que hace es usar un modelo. Veamos dónde está eso. Usa gpt40mini, y está haciendo una pregunta simple. ¿Cuál es la capital de Francia? Pero lo que quiero hacer es usar esto para idear, ¿verdad? Así que aquí está mi nuevo prompt. Lo voy a poner aquí. Y voy a decir, ¿puedes actualizar esto, por favor? Pero ahora quiero que cambies el código para que llame a dos modelos, no a uno. Así que porque quiero poder ver ambos. Y quiero que cambies la pregunta porque en realidad estoy construyendo una aplicación para turistas, ¿verdad? Así que puedo proceder y decir, OK, esta vez, en realidad lo voy a aceptar para que podamos ejecutarlo. Y cuando tomo estas respuestas, escribió el código por mí. Voy a ejecutar esto. Y ahora, sin que yo siquiera tenga que saber cómo se escribió la API, dije lo que quería que se hiciera y cambió el código. Y ahí lo tienes. Primero, lo está ejecutando en ese primer modelo, gpt40.

11. Evaluación y Evaluación Asistida por IA

Short description:

gpt40 y DeepSeek son diferentes modelos utilizados para la finalización de chat y razonamiento respectivamente. El proceso de evaluación asistida por IA implica entrenar una IA para responder preguntas de clientes y otra IA para calificar las respuestas. La calificación se realiza utilizando evaluadores, como el evaluador personalizado para coherencia, que evalúa la respuesta en una escala del uno al cinco. Se puede crear un nuevo evaluador personalizado, como la métrica de Emojiness, que evalúa el número de emojis en una respuesta.

Y por lo que vale, gpt40 es un modelo de finalización de chat, pero DeepSeek es un modelo de razonamiento. Así que gpt40 ya está de vuelta. Aquí están las respuestas porque solo lo pediste. He terminado. El razonamiento sigue pensando y diciendo, espera, déjame entender el matiz de esta pregunta. Y voy a volver. Y ahí lo hizo. ¿Verdad? Ahora, inmediatamente, esto es genial para mí porque con un solo prompt, pude ejecutar mi app pregunta en múltiples modelos, verlo, y estoy mirando y diciendo, ¿sabes qué? Creo que voy a usar gpt40. Bastante bien, ¿verdad?

Así que ahora, lo siguiente, eso fue productividad e ideación. ¿Qué tal la evaluación? ¿Cómo funciona la evaluación? Ahora, por defecto, usamos algo llamado evaluación asistida por IA, que ya está expuesta a IA. Déjame explicar. Cuando haces una app con IA, básicamente estás escribiendo un prompt y lo estás probando manualmente, ¿verdad? Escribes este prompt, revisas las respuestas y así sucesivamente. Pero cuando quieres probarlo contra un gran número de entradas, necesitas escalarlo. ¿Cómo vas a escalarlo? El lenguaje natural significa que podría ser cualquier cosa. Lo escalas creando otra IA para calificar la primera. Lo llaman LLM como juez. Y así, efectivamente lo que tienes es que primero entrenas una IA para responder preguntas de clientes, y luego has entrenado otra IA para calificar la primera IA. Y la forma en que lo hace, y te lo voy a mostrar en un segundo, usamos una tecnología llamada Prompty, pero hay otras formas de hacerlo, es que escribe lo que se llama un evaluador. Y aquí, déjame ver si puedo encontrar esa carpeta para ti por un segundo. Estará bajo source. Vamos a ver cómo se ve eso. Así que aquí, bajo evaluadores, tengo un evaluador personalizado para coherencia. Así que la coherencia está diciendo, hey, la respuesta que regresa, quiero que tú, mi IA, uses este template de prompt, tomes la respuesta de mi chat IA, y quiero que uses estas instrucciones para calificarlo. Y las instrucciones dicen califícalo en una escala del uno al cinco. Y aquí hay ejemplos de cómo se ve un uno, cómo se ve un dos. Usa esto para averiguar cómo calificarlo y dame una calificación. Y así, si miro esto, tengo un ejemplo de un evaluador personalizado. Pero soy alguien que quiere escribir un nuevo evaluador personalizado para mi app. Así que lo que voy a decir es, hey, quiero tener una nueva métrica llamada Emojiness. Y lo que quiero que hagas es quiero que tomes esta coherencia como un ejemplo, y quiero que crees un nuevo evaluador para mí que va a construir una calificación del uno al cinco, que vea cuántos emojis hay en esa respuesta particular.

12. Evaluación Asistida por IA y Evaluador Personalizado

Short description:

El texto generado por IA fue evaluado utilizando un proceso de evaluación asistida por IA. Inicialmente, la evaluación calificó el texto como uno, indicando la ausencia de emojis. Sin embargo, después de agregar emojis a la respuesta, la evaluación lo calificó como cinco. Se creó un evaluador personalizado para evaluar las respuestas utilizando IA.

Y mira, eso lo construyó para mí. Así que vamos a seguir adelante y mirar esto. Y puedes ver que tomó ese ejemplo que tenía, y de hecho se le ocurrió un texto similar, como una forma similar de pensar. Y ahora, si ejecuto esto, me está regresando con una calificación de uno.

Y veamos si tiene razón. Dice, OK, una calificación de uno significa que no había emojis. Y aparentemente no había emojis en esto. Así que vamos a comprobar esto. De hecho, voy a envolver esto para que podamos ver todo. Y así puedes ver en la pregunta de muestra, oh, en realidad había muchos emojis. Así que intentemos esto de nuevo. Oh, OK, esto estaba en la pregunta de muestra, y ese es el contexto, pero no estaba en la respuesta. La respuesta no tenía ningún emoji. Por eso lo calificó. Pero ahora veamos si podemos poner estos emojis en la respuesta y probarlo de nuevo. Y esta vez, me dio un cinco porque ahora puede usar la cosa que se le ocurrió con. Acabo de escribir un evaluador personalizado para evaluar mis respuestas, y lo hice con IA.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy
JSNation US 2024JSNation US 2024
31 min
El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy
Top Content
AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.
IA y Desarrollo Web: ¿Exageración o Realidad?
JSNation 2023JSNation 2023
24 min
IA y Desarrollo Web: ¿Exageración o Realidad?
Top Content
This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.
El Ascenso del Ingeniero de IA
React Summit US 2023React Summit US 2023
30 min
El Ascenso del Ingeniero de IA
Top Content
The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.
Aplicaciones Web del Futuro con Web AI
JSNation 2024JSNation 2024
32 min
Aplicaciones Web del Futuro con Web AI
Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.
Cobertura de código con IA
TestJS Summit 2023TestJS Summit 2023
8 min
Cobertura de código con IA
Premium
Codium is a generative AI assistant for software development that offers code explanation, test generation, and collaboration features. It can generate tests for a GraphQL API in VS Code, improve code coverage, and even document tests. Codium allows analyzing specific code lines, generating tests based on existing ones, and answering code-related questions. It can also provide suggestions for code improvement, help with code refactoring, and assist with writing commit messages.

Workshops on related topic

IA a demanda: IA sin servidor
DevOps.js Conf 2024DevOps.js Conf 2024
163 min
IA a demanda: IA sin servidor
Top Content
Featured WorkshopFree
Nathan Disidore
Nathan Disidore
En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.
AI para Desarrolladores de React
React Advanced 2024React Advanced 2024
142 min
AI para Desarrolladores de React
Top Content
Featured Workshop
Eve Porcello
Eve Porcello
El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)
How to 9,2x Your Development Speed with Cline
JSNation 2025JSNation 2025
64 min
How to 9,2x Your Development Speed with Cline
Featured Workshop
Nik Pash
Nik Pash
La forma en que escribimos código está cambiando fundamentalmente. En lugar de quedar atrapado en bucles anidados y detalles de implementación, imagine enfocarse puramente en la arquitectura y la resolución creativa de problemas mientras su programador de pares de IA maneja la ejecución. En esta masterclass práctica, te mostraré cómo aprovechar Cline (un agente de codificación autónomo que recientemente alcanzó 1M de descargas en VS Code) para acelerar drásticamente tu flujo de trabajo de desarrollo a través de una práctica que llamamos "vibe coding" - donde los humanos se enfocan en el pensamiento de alto nivel y la IA maneja la implementación.Descubrirás:Los principios fundamentales del "vibe coding" y cómo se diferencia del desarrollo tradicionalCómo diseñar soluciones a un alto nivel y hacer que la IA las implemente con precisiónDemostración en vivo: Construcción de un sistema de almacenamiento en caché de grado de producción en Go que nos ahorró $500/semanaTécnicas para usar IA para entender bases de código complejas en minutos en lugar de horasMejores prácticas para solicitar a los agentes de IA que obtengan exactamente el código que deseasErrores comunes a evitar al trabajar con asistentes de codificación de IAEstrategias para usar IA para acelerar el aprendizaje y reducir la dependencia de ingenieros seniorCómo combinar efectivamente la creatividad humana con las capacidades de implementación de IAYa sea que seas un desarrollador junior que busca acelerar tu aprendizaje o un ingeniero senior que desea optimizar tu flujo de trabajo, saldrás de esta masterclass con experiencia práctica en desarrollo asistido por IA que puedes aplicar inmediatamente a tus proyectos. A través de demostraciones de codificación en vivo y ejercicios prácticos, aprenderás cómo aprovechar Cline para escribir mejor código más rápido mientras te enfocas en lo que importa: resolver problemas reales.
Building Full Stack Apps With Cursor
JSNation 2025JSNation 2025
46 min
Building Full Stack Apps With Cursor
Featured Workshop
Mike Mikula
Mike Mikula
En esta masterclass cubriré un proceso repetible sobre cómo iniciar aplicaciones full stack en Cursor. Espere comprender técnicas como el uso de GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usarlos en notas para generar listas de verificación que guíen el desarrollo de aplicaciones. Profundizaremos más en cómo solucionar alucinaciones/errores que ocurren, indicaciones útiles para hacer que su aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espere poder ejecutar su propia aplicación full stack generada por IA en su máquina!
Por favor, encuentre las preguntas frecuentes aquí
Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor
Productivity Conf for Devs and Tech LeadersProductivity Conf for Devs and Tech Leaders
71 min
Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor
Top Content
WorkshopFree
Mike Mikula
Mike Mikula
Para asistir al webinar, por favor regístrate aquí.En este webinar cubriré un proceso repetible sobre cómo iniciar aplicaciones Full Stack en Cursor. Espera entender técnicas como usar GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usar esos en notas para generar listas de verificación que guíen el desarrollo de la aplicación. Profundizaremos más en cómo corregir alucinaciones/errores que ocurren, indicaciones útiles para hacer que tu aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espera poder ejecutar tu propia aplicación Full Stack generada por IA en tu máquina!
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
React Advanced 2023React Advanced 2023
98 min
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
Top Content
Workshop
Richard Moss
Richard Moss
En esta masterclass daremos un recorrido por la IA aplicada desde la perspectiva de los desarrolladores de front end, enfocándonos en las mejores prácticas emergentes cuando se trata de trabajar con LLMs para construir grandes productos. Esta masterclass se basa en los aprendizajes obtenidos al trabajar con la API de OpenAI desde su debut en noviembre pasado para construir un MVP funcional que se convirtió en PowerModeAI (una herramienta de creación de ideas y presentaciones orientada al cliente).
En la masterclass habrá una mezcla de presentación y ejercicios prácticos para cubrir temas que incluyen:
- Fundamentos de GPT- Trampas de los LLMs- Mejores prácticas y técnicas de ingeniería de prompts- Uso efectivo del playground- Instalación y configuración del SDK de OpenAI- Enfoques para trabajar con la API y la gestión de prompts- Implementación de la API para construir una aplicación orientada al cliente potenciada por IA- Ajuste fino y embeddings- Mejores prácticas emergentes en LLMOps