Versión en EspañolES

Prompt Engineering Toolkit

Un toolkit centralizado de ingeniería de prompts para ayudar a los desarrolladores a construir mejores aplicaciones impulsadas por LLMs. Este toolkit proporciona herramientas y mejores prácticas para elaborar prompts efectivos, gestionar versiones de prompts y evaluar el rendimiento de las características basadas en LLM. Además, hay una necesidad de control de versiones, colaboración y medidas de seguridad robustas (verificaciones de alucinaciones, marco de evaluación estandarizado y una política de seguridad) para garantizar un uso responsable de la IA.

This talk has been presented at JSNation 2025, check out the latest edition of this JavaScript Conference.

artificial intelligence

Manoj Sureddi

16 min

16 Jun, 2025

Comments

Video Summary and Transcription

Manoj Sureddy discute la construcción de un toolkit para la ingeniería de prompts con soluciones basadas en LLM, enfatizando la necesidad de un enfoque estructurado como React. El toolkit proporciona un enfoque estructurado para el desarrollo de prompts, asegurando plantillas organizadas y reutilizables para varias soluciones basadas en LLM. Integración con control de versiones y pipeline CI-CD para evaluaciones automatizadas, mecanismos avanzados de evaluación de calidad usando Gemma, e integración de evaluaciones con humanos en el bucle. Enfoque en mantener la calidad de los prompts, métricas subjetivas en evaluaciones, y perspectivas sobre el desvío de prompts, versionado, retroalimentación real de usuarios y automatización de evaluaciones.

Available in English: Prompt Engineering Toolkit

1. Prompt Engineering Toolkit for LLM Solutions

Short description:

Manoj Sureddy discute la construcción de un conjunto de herramientas para la ingeniería de prompts con soluciones basadas en LLM, abordando los desafíos en el desarrollo y mantenimiento de prompts con reutilización y organización limitadas, enfatizando la necesidad de un enfoque estructurado como React para los prompts.

Hola a todos. Soy Manoj Sureddy. Trabajo como ingeniero de software en Uber. Lidero el equipo de automatización de soporte al cliente y chatbots de IA generativa. Hoy voy a hablar sobre cómo construimos un conjunto de herramientas de ingeniería de prompts que te permite usar soluciones basadas en LLM a gran escala. Con el advenimiento de chatGBT y otros modelos LLM, ha habido una explosión en el uso de IA generativa en varios productos de múltiples empresas, y esa ha sido la misma tendencia para nosotros.

Y seamos sinceros, los LLM son increíbles, pero cuando los usas en producción, no tanto, porque tenemos que lidiar con muchas complejidades que vienen con soluciones tan inteligentes. Principalmente, el flujo de trabajo general de desarrollar cualquier prompt es muy ad hoc y manual por naturaleza, porque tienes que iterar, realizar muchas pruebas y errores en estos prompts. Y en la mayoría de los casos de uso, estarás manteniendo estos prompts en código, Google Docs o cualquier cuaderno aleatorio, esencialmente.

Así que no hay una forma clara de descubrir qué hacen estos prompts. Y además, la reutilización de estos prompts es algo que es muy escasa en varias empresas. Así que, principalmente, digamos que si una técnica específica de ingeniería de prompts o ajuste de prompts funcionó bien para el prompt A, aplicarla directamente en el prompt B es prácticamente rehacer la mayoría de los elementos que has hecho. Básicamente, prueba y error y todos los otros mecanismos de prueba que tienes que hacer con eso. Aparte de esto, descubrir qué técnicas funcionaron bien y cómo podemos aprender de otros ingenieros que construyeron tipos similares de prompts es algo que no existe en la mayoría de los flujos de trabajo aquí.

2. Structured Approach for Prompt Development

Short description:

Abordando los desafíos del crecimiento y la complejidad de los prompts, el conjunto de herramientas proporciona un enfoque estructurado para el desarrollo de prompts, asegurando plantillas organizadas y reutilizables para varias soluciones basadas en LLM como RAG y Qshort. La inyección dinámica de datos, el mantenimiento del repositorio y los mecanismos de ajuste compartidos mejoran la velocidad de desarrollo.

Y también, a medida que el prompt crece, se vuelve cada vez más frágil y no determinista porque conduce a muchas alucinaciones y todos los otros efectos secundarios de usar elementos. Y con esta creciente complejidad, la velocidad de ingeniería también disminuye. ¿Te suena familiar? Sí. Para asegurarnos de que el desarrollo de prompts sea menos caótico, el desafío para nosotros es traer orden a este caos.

Para asegurarnos de que el desarrollo de prompts sea lo más organizado posible y podamos traer ese orden al caos, como estábamos hablando en la diapositiva anterior, ahí es donde entra en juego el conjunto de herramientas de ingeniería de prompts. Proporciona a los desarrolladores un marco claro sobre cómo crear, versionar y probar prompts. Guarda estos prompts como plantillas, lo que te permite reutilizarlos en varios casos de uso junto con otras soluciones basadas en LLM como RAG o Qshort y Zeroshort example-based prompting.

Y cómo puedes inyectar dinámicamente esos ejemplos en estos prompts.

3. React-Like Functionality for Prompt Development

Short description:

Prompts estructurados, componibles y comprobables. Integración con control de versiones y pipeline CI-CD para evaluaciones automatizadas. Plantillas con instrucciones del sistema y parámetros del modelo, permitiendo un cambio fácil de modelo e integración a través de API gateway.

Piénsalo como React para prompts. Estructurado, componible y comprobable por naturaleza. Los desarrolladores pueden centrarse principalmente en la lógica, mientras que tenemos el boilerplate repetido y los conjuntos de datos dorados y otros ejemplos principales disponibles para ellos, que podrían reutilizar de otros repositorios como tal. También integramos con control de versiones y pipeline CI-CD para que puedas ejecutar evaluaciones automatizadas en estas plantillas de prompts tan pronto como se comprometan. Esto te permite identificar regresiones así como desviaciones de la solución original de una manera más orientada a métricas.

Vamos a entrar en una de las plantillas y ver cómo funciona. Así que si ves aquí, la plantilla aquí contiene un nombre, descripción, instrucciones del sistema y parámetros del modelo. Ahora, este es un bot de preguntas y respuestas simple donde te pedimos que respondas las preguntas. Es muy rudimentario por naturaleza. Verás que el modelo que estamos usando es llama, y hemos establecido la temperatura a 0.5 y el máximo de tokens a 100. Ahora puedes ejecutar rápidamente este prompt y ver cómo se ejecuta.

Bueno, está respondiendo sobre pingüinos. ¿Cómo está sucediendo esto? Así que vamos a la prueba. Aquí puedes ver que el conjunto de herramientas de prompts te proporciona un cliente donde puedes pasar un conjunto de mensajes. Cada uno puede ser una conversación del usuario, y aquí el usuario está pidiendo datos curiosos sobre pingüinos. Y el modelo llama ha devuelto la respuesta. Ahora digamos que estás usando un modelo llama, y quieres cambiar a Gemma. No necesitas crear diferentes integraciones como tal. Este conjunto de herramientas se integra con casi todos los modelos a través de su API gateway. Para esta demostración, estoy usando un gateway público común, pero puedes usar cualquiera de tus API gateways para hacer esto.

4. Mecanismos Avanzados de Evaluación de Calidad para Prompts

Short description:

Usando Gemma con plantillas adicionales para el enriquecimiento de prompts. Importancia de mantener la calidad del prompt. Mecanismos de evaluación: basado en juez LLM y humano en el bucle.

Entonces, si ves aquí, está usando Gemma, y tiene el mismo prompt. Pero si ves, hay una plantilla adicional aquí. Este tipo de plantillas pueden permitirte inyectar ejemplos, o inyectar parámetros adicionales de consultas basadas en rag o pocos ejemplos cortos que mantienes, lo que enriquece tu prompt. Puedes realizar la misma ejecución, y prácticamente devuelve el resultado en esto, y las pruebas son similares.

Ahora hablemos de calidad. Si el prompt falla en producción, es el fin del juego. A medida que pasas por un montón de iteraciones en tu ciclo de vida de desarrollo de prompts, las regresiones son inevitables. Así que, tienes que asegurarte de que tus iteraciones de prompts mantengan el mismo nivel de calidad que la anterior. Así que, el conjunto de herramientas de prompts te proporciona un mecanismo para evaluar tus prompts bajo dos condiciones. Principalmente, LLM como una evaluación basada en juez, que es principalmente un mecanismo de evaluación automatizado. El segundo es la evaluación con humano en el bucle.

Hablemos del primero. En el primero, usaríamos un modelo de lenguaje más grande, generalmente que ha sido evaluado por su calidad. Y luego lo ejecutamos como un juez, donde ejecuta el mismo prompt e identifica si la respuesta coincide con la respuesta de prueba. Así que en el lado derecho, si ves, hemos añadido un par de pruebas. Vamos a entrar en su funcionamiento en un minuto. Tienes el nombre de la prueba, entrada y salida. El juez LLM básicamente generaría la misma respuesta y la compararía semánticamente si es verdadera o falsa.

5. Integración de Evaluaciones con Humano en el Bucle

Short description:

Métricas subjetivas en evaluaciones, incluyendo tono y corrección. Integración de evaluaciones con humano en el bucle con juicio de LLM. Muestreo de respuestas para mantener evaluaciones de calidad e identificar casos límite.

Estas son métricas subjetivas, enfocándose principalmente en el tono, estilo así como la corrección y concisión de la respuesta. Mientras que la evaluación con humano en el bucle detectaría los matices e intenciones así como el tono de la respuesta en sí, también señalaría casos límite y alucinaciones. Esto puede ser retroalimentado al LLM como una evaluación de juez actualizando tus conjuntos de datos dorados o tus pruebas de tal manera que las nuevas evaluaciones humanas se automatizarán. Esto ocurre como un ciclo de vida y eventualmente puedes obtener un conjunto muy robusto de casos de prueba y aún identificar cualquier caso límite usando la evaluación con humano en el bucle.

Usualmente, hacemos un muestreo de respuestas para no realizar una evaluación con humano en el bucle a gran escala. Hacemos un pequeño subconjunto del total de respuestas. Veamos cómo funciona. Has visto anteriormente que esta es la plantilla. Ahora veamos cómo se pueden añadir pruebas a ella. Aquí si ves, tenemos un par de pruebas, principalmente una prueba positiva y una negativa. He añadido un ejemplo contrario aquí.

Este prompt está resumiendo tickets de soporte al cliente. Estamos tratando de identificarlo como una respuesta corta. Estamos usando el modelo LLM aquí. Mismas restricciones de temperatura y tokens máximos. Si ves el primero, el usuario está proporcionando una reseña y básicamente la estamos resumiendo. El segundo, el usuario está agradeciendo por la entrega rápida. Lo estamos mencionando como un resultado de prueba negativo. Principalmente, solo ejecutémoslo y veamos. Si ves, la prueba 2 falló como se esperaba. Aquí estamos proporcionando el razonamiento de por qué falló.

6. Prompt Test Response Evaluation and Insights

Short description:

Identificación de respuestas de prueba, mantenimiento de la preparación de pruebas y prevención de la regresión de prompts. Descripción general del evaluador, estructura de la plantilla y enfoque de prueba. Perspectivas sobre el drift de prompts, versionado, retroalimentación real de usuarios y automatización de evaluaciones.

La respuesta general de la prueba que estamos tratando de ver es una respuesta positiva, pero hemos identificado algunas negativas. Podemos señalarlas. La segunda prueba pasó porque es algo que esperábamos. Puedes ejecutar este tipo de pruebas en estas plantillas. A medida que iteras en estos prompts, puedes mantener estos casos de prueba listos. Para que puedas seguir un enfoque más orientado al desarrollo basado en pruebas. Para que tu prompt no retroceda o se desvíe de los conjuntos de datos de calidad esperados.

Ahora veamos rápidamente el evaluador. Este evaluador no hace nada más que una pequeña evaluación donde está aumentando el prompt inicial para cada prueba. Este aumentador está sustituyendo dinámicamente las respuestas en la plantilla misma. Veamos la plantilla de prueba para obtener una mejor idea de ella. Aquí, la plantilla de prueba está estableciendo principalmente una persona para el LLM. Está pidiendo, basado en el prompt de entrada y la entrada de prueba, generar una salida. Hemos dado una pequeña plantilla. Luego estamos pidiendo al LLM que devuelva verdadero o falso. Si es verdadero, no devuelvas ningún contenido. Si es falso, devuelve la razón de ello. Estamos usando prácticamente el mismo modelo y parámetros aquí. Esto es solo para fines de demostración.

Ahora, cuando entras en el evaluador, principalmente ejecutamos estas pruebas contra el LLM mismo y registramos las respuestas como se esperaba. Así es como básicamente ejecutamos estas pruebas y nos aseguramos de que cada prompt pase por este pipeline de evaluación. Automatizamos toda esta evaluación dentro de nuestro ecosistema y nos aseguramos de que los prompts no se desvíen mucho de la calidad de salida esperada. Ahora veamos qué hemos aprendido al desarrollar este toolkit. El aprendizaje principal de esto es que el drift de prompt es real. La cuestión es que cualquier pequeño cambio en tu prompt generalmente hace que se desvíe drásticamente en algunos escenarios. Tratar tus prompts como código mediante versionado y pruebas, así como revisarlos regularmente, garantizaría que mantengas el mismo nivel de calidad de producción en tus productos. La calidad del prompt generalmente mejora con la retroalimentación real de los usuarios.

Available in other languages:

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript

JSNation 2023

21 min

Construyendo un Asistente AI Activado por Voz con Javascript

Top Content

Tejas Kumar

Author of the "Fluent React" bestselling book, software engineer with 23 years of experience, and host of the developer-loved ConTejas Code podcast.

This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.

artificial intelligence case study

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

JSNation US 2024

31 min

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

Top Content

Addy Osmani

Engineering Leader Working on Google Chrome

AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.

artificial intelligence

El Ascenso del Ingeniero de IA

React Summit US 2023

30 min

El Ascenso del Ingeniero de IA

Top Content

Shawn Swyx Wang

Latent.Space Editor & Smol.ai Founder

The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.

artificial intelligence future of development web development builders and founders

IA y Desarrollo Web: ¿Exageración o Realidad?

JSNation 2023

24 min

IA y Desarrollo Web: ¿Exageración o Realidad?

Top Content

Wes Bos

Full Stack Developer, Speaker & Teacher, Co-host of Syntax.fm podcast.

This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.

artificial intelligence productivity

Aplicaciones Web del Futuro con Web AI

JSNation 2024

32 min

Aplicaciones Web del Futuro con Web AI

Jason Mayes

Web AI Lead at Google.

Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.

artificial intelligence

El Ingeniero de Software Nativo de AI

JSNation US 2025

35 min

El Ingeniero de Software Nativo de AI

Addy Osmani

Engineering Leader Working on Google Chrome

Software engineering is evolving with AI and VIBE coding reshaping work, emphasizing collaboration and embracing AI. The future roadmap includes transitioning from augmented to AI-first and eventually AI-native developer experiences. AI integration in coding practices shapes a collaborative future, with tools evolving for startups and enterprises. AI tools aid in design, coding, and testing, offering varied assistance. Context relevance, spec-driven development, human review, and AI implementation challenges are key focus areas. AI boosts productivity but faces verification challenges, necessitating human oversight. The impact of AI on code reviews, talent development, and problem-solving evolution in coding practices is significant.

artificial intelligence

Workshops on related topic

IA a demanda: IA sin servidor

DevOps.js Conf 2024

163 min

IA a demanda: IA sin servidor

Top Content

Featured WorkshopFree

Nathan Disidore

En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.

artificial intelligence serverless architecture

AI para Desarrolladores de React

React Advanced 2024

142 min

AI para Desarrolladores de React

Top Content

Featured Workshop

Eve Porcello

El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)

react next.js artificial intelligence

Building Full Stack Apps With Cursor

JSNation 2025

46 min

Building Full Stack Apps With Cursor

Featured Workshop

Mike Mikula

En esta masterclass cubriré un proceso repetible sobre cómo iniciar aplicaciones full stack en Cursor. Espere comprender técnicas como el uso de GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usarlos en notas para generar listas de verificación que guíen el desarrollo de aplicaciones. Profundizaremos más en cómo solucionar alucinaciones/errores que ocurren, indicaciones útiles para hacer que su aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espere poder ejecutar su propia aplicación full stack generada por IA en su máquina!
Por favor, encuentre las preguntas frecuentes aquí

artificial intelligence

How to 9,2x Your Development Speed with Cline

JSNation 2025

64 min

How to 9,2x Your Development Speed with Cline

Featured Workshop

Nik Pash

La forma en que escribimos código está cambiando fundamentalmente. En lugar de quedar atrapado en bucles anidados y detalles de implementación, imagine enfocarse puramente en la arquitectura y la resolución creativa de problemas mientras su programador de pares de IA maneja la ejecución. En esta masterclass práctica, te mostraré cómo aprovechar Cline (un agente de codificación autónomo que recientemente alcanzó 1M de descargas en VS Code) para acelerar drásticamente tu flujo de trabajo de desarrollo a través de una práctica que llamamos "vibe coding" - donde los humanos se enfocan en el pensamiento de alto nivel y la IA maneja la implementación.Descubrirás:Los principios fundamentales del "vibe coding" y cómo se diferencia del desarrollo tradicionalCómo diseñar soluciones a un alto nivel y hacer que la IA las implemente con precisiónDemostración en vivo: Construcción de un sistema de almacenamiento en caché de grado de producción en Go que nos ahorró $500/semanaTécnicas para usar IA para entender bases de código complejas en minutos en lugar de horasMejores prácticas para solicitar a los agentes de IA que obtengan exactamente el código que deseasErrores comunes a evitar al trabajar con asistentes de codificación de IAEstrategias para usar IA para acelerar el aprendizaje y reducir la dependencia de ingenieros seniorCómo combinar efectivamente la creatividad humana con las capacidades de implementación de IAYa sea que seas un desarrollador junior que busca acelerar tu aprendizaje o un ingeniero senior que desea optimizar tu flujo de trabajo, saldrás de esta masterclass con experiencia práctica en desarrollo asistido por IA que puedes aplicar inmediatamente a tus proyectos. A través de demostraciones de codificación en vivo y ejercicios prácticos, aprenderás cómo aprovechar Cline para escribir mejor código más rápido mientras te enfocas en lo que importa: resolver problemas reales.

artificial intelligence

Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor

Productivity Conf for Devs and Tech Leaders

71 min

Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor

Top Content

WorkshopFree

Mike Mikula

Para asistir al webinar, por favor regístrate aquí.En este webinar cubriré un proceso repetible sobre cómo iniciar aplicaciones Full Stack en Cursor. Espera entender técnicas como usar GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usar esos en notas para generar listas de verificación que guíen el desarrollo de la aplicación. Profundizaremos más en cómo corregir alucinaciones/errores que ocurren, indicaciones útiles para hacer que tu aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espera poder ejecutar tu propia aplicación Full Stack generada por IA en tu máquina!

artificial intelligence fullstack

Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React

React Advanced 2023

98 min

Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React

Top Content

Workshop

Richard Moss

En esta masterclass daremos un recorrido por la IA aplicada desde la perspectiva de los desarrolladores de front end, enfocándonos en las mejores prácticas emergentes cuando se trata de trabajar con LLMs para construir grandes productos. Esta masterclass se basa en los aprendizajes obtenidos al trabajar con la API de OpenAI desde su debut en noviembre pasado para construir un MVP funcional que se convirtió en PowerModeAI (una herramienta de creación de ideas y presentaciones orientada al cliente).
En la masterclass habrá una mezcla de presentación y ejercicios prácticos para cubrir temas que incluyen:
- Fundamentos de GPT- Trampas de los LLMs- Mejores prácticas y técnicas de ingeniería de prompts- Uso efectivo del playground- Instalación y configuración del SDK de OpenAI- Enfoques para trabajar con la API y la gestión de prompts- Implementación de la API para construir una aplicación orientada al cliente potenciada por IA- Ajuste fino y embeddings- Mejores prácticas emergentes en LLMOps

openai artificial intelligence react and ai