Prompt Engineering Toolkit

This ad is not shown to multipass and full ticket holders
JSNation US
JSNation US 2025
November 17 - 20, 2025
New York, US & Online
See JS stars in the US biggest planetarium
Learn More
In partnership with Focus Reactive
Upcoming event
JSNation US 2025
JSNation US 2025
November 17 - 20, 2025. New York, US & Online
Learn more
Bookmark
Rate this content

Un toolkit centralizado de ingeniería de prompts para ayudar a los desarrolladores a construir mejores aplicaciones impulsadas por LLMs. Este toolkit proporciona herramientas y mejores prácticas para elaborar prompts efectivos, gestionar versiones de prompts y evaluar el rendimiento de las características basadas en LLM. Además, hay una necesidad de control de versiones, colaboración y medidas de seguridad robustas (verificaciones de alucinaciones, marco de evaluación estandarizado y una política de seguridad) para garantizar un uso responsable de la IA. 

This talk has been presented at JSNation 2025, check out the latest edition of this JavaScript Conference.

Manoj Sureddi
Manoj Sureddi
16 min
16 Jun, 2025

Comments

Sign in or register to post your comment.
Video Summary and Transcription
Manoj Sureddy discute la construcción de un toolkit para la ingeniería de prompts con soluciones basadas en LLM, enfatizando la necesidad de un enfoque estructurado como React. El toolkit proporciona un enfoque estructurado para el desarrollo de prompts, asegurando plantillas organizadas y reutilizables para varias soluciones basadas en LLM. Integración con control de versiones y pipeline CI-CD para evaluaciones automatizadas, mecanismos avanzados de evaluación de calidad usando Gemma, e integración de evaluaciones con humanos en el bucle. Enfoque en mantener la calidad de los prompts, métricas subjetivas en evaluaciones, y perspectivas sobre el desvío de prompts, versionado, retroalimentación real de usuarios y automatización de evaluaciones.
Available in English: Prompt Engineering Toolkit

1. Prompt Engineering Toolkit for LLM Solutions

Short description:

Manoj Sureddy discute la construcción de un conjunto de herramientas para la ingeniería de prompts con soluciones basadas en LLM, abordando los desafíos en el desarrollo y mantenimiento de prompts con reutilización y organización limitadas, enfatizando la necesidad de un enfoque estructurado como React para los prompts.

Hola a todos. Soy Manoj Sureddy. Trabajo como ingeniero de software en Uber. Lidero el equipo de automatización de soporte al cliente y chatbots de IA generativa. Hoy voy a hablar sobre cómo construimos un conjunto de herramientas de ingeniería de prompts que te permite usar soluciones basadas en LLM a gran escala. Con el advenimiento de chatGBT y otros modelos LLM, ha habido una explosión en el uso de IA generativa en varios productos de múltiples empresas, y esa ha sido la misma tendencia para nosotros.

Y seamos sinceros, los LLM son increíbles, pero cuando los usas en producción, no tanto, porque tenemos que lidiar con muchas complejidades que vienen con soluciones tan inteligentes. Principalmente, el flujo de trabajo general de desarrollar cualquier prompt es muy ad hoc y manual por naturaleza, porque tienes que iterar, realizar muchas pruebas y errores en estos prompts. Y en la mayoría de los casos de uso, estarás manteniendo estos prompts en código, Google Docs o cualquier cuaderno aleatorio, esencialmente.

Así que no hay una forma clara de descubrir qué hacen estos prompts. Y además, la reutilización de estos prompts es algo que es muy escasa en varias empresas. Así que, principalmente, digamos que si una técnica específica de ingeniería de prompts o ajuste de prompts funcionó bien para el prompt A, aplicarla directamente en el prompt B es prácticamente rehacer la mayoría de los elementos que has hecho. Básicamente, prueba y error y todos los otros mecanismos de prueba que tienes que hacer con eso. Aparte de esto, descubrir qué técnicas funcionaron bien y cómo podemos aprender de otros ingenieros que construyeron tipos similares de prompts es algo que no existe en la mayoría de los flujos de trabajo aquí.

2. Structured Approach for Prompt Development

Short description:

Abordando los desafíos del crecimiento y la complejidad de los prompts, el conjunto de herramientas proporciona un enfoque estructurado para el desarrollo de prompts, asegurando plantillas organizadas y reutilizables para varias soluciones basadas en LLM como RAG y Qshort. La inyección dinámica de datos, el mantenimiento del repositorio y los mecanismos de ajuste compartidos mejoran la velocidad de desarrollo.

Y también, a medida que el prompt crece, se vuelve cada vez más frágil y no determinista porque conduce a muchas alucinaciones y todos los otros efectos secundarios de usar elementos. Y con esta creciente complejidad, la velocidad de ingeniería también disminuye. ¿Te suena familiar? Sí. Para asegurarnos de que el desarrollo de prompts sea menos caótico, el desafío para nosotros es traer orden a este caos.

Para asegurarnos de que el desarrollo de prompts sea lo más organizado posible y podamos traer ese orden al caos, como estábamos hablando en la diapositiva anterior, ahí es donde entra en juego el conjunto de herramientas de ingeniería de prompts. Proporciona a los desarrolladores un marco claro sobre cómo crear, versionar y probar prompts. Guarda estos prompts como plantillas, lo que te permite reutilizarlos en varios casos de uso junto con otras soluciones basadas en LLM como RAG o Qshort y Zeroshort example-based prompting.

Y cómo puedes inyectar dinámicamente esos ejemplos en estos prompts.

3. React-Like Functionality for Prompt Development

Short description:

Prompts estructurados, componibles y comprobables. Integración con control de versiones y pipeline CI-CD para evaluaciones automatizadas. Plantillas con instrucciones del sistema y parámetros del modelo, permitiendo un cambio fácil de modelo e integración a través de API gateway.

Piénsalo como React para prompts. Estructurado, componible y comprobable por naturaleza. Los desarrolladores pueden centrarse principalmente en la lógica, mientras que tenemos el boilerplate repetido y los conjuntos de datos dorados y otros ejemplos principales disponibles para ellos, que podrían reutilizar de otros repositorios como tal. También integramos con control de versiones y pipeline CI-CD para que puedas ejecutar evaluaciones automatizadas en estas plantillas de prompts tan pronto como se comprometan. Esto te permite identificar regresiones así como desviaciones de la solución original de una manera más orientada a métricas.

Vamos a entrar en una de las plantillas y ver cómo funciona. Así que si ves aquí, la plantilla aquí contiene un nombre, descripción, instrucciones del sistema y parámetros del modelo. Ahora, este es un bot de preguntas y respuestas simple donde te pedimos que respondas las preguntas. Es muy rudimentario por naturaleza. Verás que el modelo que estamos usando es llama, y hemos establecido la temperatura a 0.5 y el máximo de tokens a 100. Ahora puedes ejecutar rápidamente este prompt y ver cómo se ejecuta.

Bueno, está respondiendo sobre pingüinos. ¿Cómo está sucediendo esto? Así que vamos a la prueba. Aquí puedes ver que el conjunto de herramientas de prompts te proporciona un cliente donde puedes pasar un conjunto de mensajes. Cada uno puede ser una conversación del usuario, y aquí el usuario está pidiendo datos curiosos sobre pingüinos. Y el modelo llama ha devuelto la respuesta. Ahora digamos que estás usando un modelo llama, y quieres cambiar a Gemma. No necesitas crear diferentes integraciones como tal. Este conjunto de herramientas se integra con casi todos los modelos a través de su API gateway. Para esta demostración, estoy usando un gateway público común, pero puedes usar cualquiera de tus API gateways para hacer esto.

4. Mecanismos Avanzados de Evaluación de Calidad para Prompts

Short description:

Usando Gemma con plantillas adicionales para el enriquecimiento de prompts. Importancia de mantener la calidad del prompt. Mecanismos de evaluación: basado en juez LLM y humano en el bucle.

Entonces, si ves aquí, está usando Gemma, y tiene el mismo prompt. Pero si ves, hay una plantilla adicional aquí. Este tipo de plantillas pueden permitirte inyectar ejemplos, o inyectar parámetros adicionales de consultas basadas en rag o pocos ejemplos cortos que mantienes, lo que enriquece tu prompt. Puedes realizar la misma ejecución, y prácticamente devuelve el resultado en esto, y las pruebas son similares.

Ahora hablemos de calidad. Si el prompt falla en producción, es el fin del juego. A medida que pasas por un montón de iteraciones en tu ciclo de vida de desarrollo de prompts, las regresiones son inevitables. Así que, tienes que asegurarte de que tus iteraciones de prompts mantengan el mismo nivel de calidad que la anterior. Así que, el conjunto de herramientas de prompts te proporciona un mecanismo para evaluar tus prompts bajo dos condiciones. Principalmente, LLM como una evaluación basada en juez, que es principalmente un mecanismo de evaluación automatizado. El segundo es la evaluación con humano en el bucle.

Hablemos del primero. En el primero, usaríamos un modelo de lenguaje más grande, generalmente que ha sido evaluado por su calidad. Y luego lo ejecutamos como un juez, donde ejecuta el mismo prompt e identifica si la respuesta coincide con la respuesta de prueba. Así que en el lado derecho, si ves, hemos añadido un par de pruebas. Vamos a entrar en su funcionamiento en un minuto. Tienes el nombre de la prueba, entrada y salida. El juez LLM básicamente generaría la misma respuesta y la compararía semánticamente si es verdadera o falsa.

5. Integración de Evaluaciones con Humano en el Bucle

Short description:

Métricas subjetivas en evaluaciones, incluyendo tono y corrección. Integración de evaluaciones con humano en el bucle con juicio de LLM. Muestreo de respuestas para mantener evaluaciones de calidad e identificar casos límite.

Estas son métricas subjetivas, enfocándose principalmente en el tono, estilo así como la corrección y concisión de la respuesta. Mientras que la evaluación con humano en el bucle detectaría los matices e intenciones así como el tono de la respuesta en sí, también señalaría casos límite y alucinaciones. Esto puede ser retroalimentado al LLM como una evaluación de juez actualizando tus conjuntos de datos dorados o tus pruebas de tal manera que las nuevas evaluaciones humanas se automatizarán. Esto ocurre como un ciclo de vida y eventualmente puedes obtener un conjunto muy robusto de casos de prueba y aún identificar cualquier caso límite usando la evaluación con humano en el bucle.

Usualmente, hacemos un muestreo de respuestas para no realizar una evaluación con humano en el bucle a gran escala. Hacemos un pequeño subconjunto del total de respuestas. Veamos cómo funciona. Has visto anteriormente que esta es la plantilla. Ahora veamos cómo se pueden añadir pruebas a ella. Aquí si ves, tenemos un par de pruebas, principalmente una prueba positiva y una negativa. He añadido un ejemplo contrario aquí.

Este prompt está resumiendo tickets de soporte al cliente. Estamos tratando de identificarlo como una respuesta corta. Estamos usando el modelo LLM aquí. Mismas restricciones de temperatura y tokens máximos. Si ves el primero, el usuario está proporcionando una reseña y básicamente la estamos resumiendo. El segundo, el usuario está agradeciendo por la entrega rápida. Lo estamos mencionando como un resultado de prueba negativo. Principalmente, solo ejecutémoslo y veamos. Si ves, la prueba 2 falló como se esperaba. Aquí estamos proporcionando el razonamiento de por qué falló.

6. Prompt Test Response Evaluation and Insights

Short description:

Identificación de respuestas de prueba, mantenimiento de la preparación de pruebas y prevención de la regresión de prompts. Descripción general del evaluador, estructura de la plantilla y enfoque de prueba. Perspectivas sobre el drift de prompts, versionado, retroalimentación real de usuarios y automatización de evaluaciones.

La respuesta general de la prueba que estamos tratando de ver es una respuesta positiva, pero hemos identificado algunas negativas. Podemos señalarlas. La segunda prueba pasó porque es algo que esperábamos. Puedes ejecutar este tipo de pruebas en estas plantillas. A medida que iteras en estos prompts, puedes mantener estos casos de prueba listos. Para que puedas seguir un enfoque más orientado al desarrollo basado en pruebas. Para que tu prompt no retroceda o se desvíe de los conjuntos de datos de calidad esperados.

Ahora veamos rápidamente el evaluador. Este evaluador no hace nada más que una pequeña evaluación donde está aumentando el prompt inicial para cada prueba. Este aumentador está sustituyendo dinámicamente las respuestas en la plantilla misma. Veamos la plantilla de prueba para obtener una mejor idea de ella. Aquí, la plantilla de prueba está estableciendo principalmente una persona para el LLM. Está pidiendo, basado en el prompt de entrada y la entrada de prueba, generar una salida. Hemos dado una pequeña plantilla. Luego estamos pidiendo al LLM que devuelva verdadero o falso. Si es verdadero, no devuelvas ningún contenido. Si es falso, devuelve la razón de ello. Estamos usando prácticamente el mismo modelo y parámetros aquí. Esto es solo para fines de demostración.

Ahora, cuando entras en el evaluador, principalmente ejecutamos estas pruebas contra el LLM mismo y registramos las respuestas como se esperaba. Así es como básicamente ejecutamos estas pruebas y nos aseguramos de que cada prompt pase por este pipeline de evaluación. Automatizamos toda esta evaluación dentro de nuestro ecosistema y nos aseguramos de que los prompts no se desvíen mucho de la calidad de salida esperada. Ahora veamos qué hemos aprendido al desarrollar este toolkit. El aprendizaje principal de esto es que el drift de prompt es real. La cuestión es que cualquier pequeño cambio en tu prompt generalmente hace que se desvíe drásticamente en algunos escenarios. Tratar tus prompts como código mediante versionado y pruebas, así como revisarlos regularmente, garantizaría que mantengas el mismo nivel de calidad de producción en tus productos. La calidad del prompt generalmente mejora con la retroalimentación real de los usuarios.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy
JSNation US 2024JSNation US 2024
31 min
El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy
Top Content
AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.
IA y Desarrollo Web: ¿Exageración o Realidad?
JSNation 2023JSNation 2023
24 min
IA y Desarrollo Web: ¿Exageración o Realidad?
Top Content
This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.
El Ascenso del Ingeniero de IA
React Summit US 2023React Summit US 2023
30 min
El Ascenso del Ingeniero de IA
Top Content
The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.
Aplicaciones Web del Futuro con Web AI
JSNation 2024JSNation 2024
32 min
Aplicaciones Web del Futuro con Web AI
Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.
Cobertura de código con IA
TestJS Summit 2023TestJS Summit 2023
8 min
Cobertura de código con IA
Premium
Codium is a generative AI assistant for software development that offers code explanation, test generation, and collaboration features. It can generate tests for a GraphQL API in VS Code, improve code coverage, and even document tests. Codium allows analyzing specific code lines, generating tests based on existing ones, and answering code-related questions. It can also provide suggestions for code improvement, help with code refactoring, and assist with writing commit messages.

Workshops on related topic

IA a demanda: IA sin servidor
DevOps.js Conf 2024DevOps.js Conf 2024
163 min
IA a demanda: IA sin servidor
Top Content
Featured WorkshopFree
Nathan Disidore
Nathan Disidore
En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.
AI para Desarrolladores de React
React Advanced 2024React Advanced 2024
142 min
AI para Desarrolladores de React
Top Content
Featured Workshop
Eve Porcello
Eve Porcello
El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)
How to 9,2x Your Development Speed with Cline
JSNation 2025JSNation 2025
64 min
How to 9,2x Your Development Speed with Cline
Featured Workshop
Nik Pash
Nik Pash
La forma en que escribimos código está cambiando fundamentalmente. En lugar de quedar atrapado en bucles anidados y detalles de implementación, imagine enfocarse puramente en la arquitectura y la resolución creativa de problemas mientras su programador de pares de IA maneja la ejecución. En esta masterclass práctica, te mostraré cómo aprovechar Cline (un agente de codificación autónomo que recientemente alcanzó 1M de descargas en VS Code) para acelerar drásticamente tu flujo de trabajo de desarrollo a través de una práctica que llamamos "vibe coding" - donde los humanos se enfocan en el pensamiento de alto nivel y la IA maneja la implementación.Descubrirás:Los principios fundamentales del "vibe coding" y cómo se diferencia del desarrollo tradicionalCómo diseñar soluciones a un alto nivel y hacer que la IA las implemente con precisiónDemostración en vivo: Construcción de un sistema de almacenamiento en caché de grado de producción en Go que nos ahorró $500/semanaTécnicas para usar IA para entender bases de código complejas en minutos en lugar de horasMejores prácticas para solicitar a los agentes de IA que obtengan exactamente el código que deseasErrores comunes a evitar al trabajar con asistentes de codificación de IAEstrategias para usar IA para acelerar el aprendizaje y reducir la dependencia de ingenieros seniorCómo combinar efectivamente la creatividad humana con las capacidades de implementación de IAYa sea que seas un desarrollador junior que busca acelerar tu aprendizaje o un ingeniero senior que desea optimizar tu flujo de trabajo, saldrás de esta masterclass con experiencia práctica en desarrollo asistido por IA que puedes aplicar inmediatamente a tus proyectos. A través de demostraciones de codificación en vivo y ejercicios prácticos, aprenderás cómo aprovechar Cline para escribir mejor código más rápido mientras te enfocas en lo que importa: resolver problemas reales.
Building Full Stack Apps With Cursor
JSNation 2025JSNation 2025
46 min
Building Full Stack Apps With Cursor
Featured Workshop
Mike Mikula
Mike Mikula
En esta masterclass cubriré un proceso repetible sobre cómo iniciar aplicaciones full stack en Cursor. Espere comprender técnicas como el uso de GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usarlos en notas para generar listas de verificación que guíen el desarrollo de aplicaciones. Profundizaremos más en cómo solucionar alucinaciones/errores que ocurren, indicaciones útiles para hacer que su aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espere poder ejecutar su propia aplicación full stack generada por IA en su máquina!
Por favor, encuentre las preguntas frecuentes aquí
Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor
Productivity Conf for Devs and Tech LeadersProductivity Conf for Devs and Tech Leaders
71 min
Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor
Top Content
WorkshopFree
Mike Mikula
Mike Mikula
Para asistir al webinar, por favor regístrate aquí.En este webinar cubriré un proceso repetible sobre cómo iniciar aplicaciones Full Stack en Cursor. Espera entender técnicas como usar GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usar esos en notas para generar listas de verificación que guíen el desarrollo de la aplicación. Profundizaremos más en cómo corregir alucinaciones/errores que ocurren, indicaciones útiles para hacer que tu aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espera poder ejecutar tu propia aplicación Full Stack generada por IA en tu máquina!
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
React Advanced 2023React Advanced 2023
98 min
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
Top Content
Workshop
Richard Moss
Richard Moss
En esta masterclass daremos un recorrido por la IA aplicada desde la perspectiva de los desarrolladores de front end, enfocándonos en las mejores prácticas emergentes cuando se trata de trabajar con LLMs para construir grandes productos. Esta masterclass se basa en los aprendizajes obtenidos al trabajar con la API de OpenAI desde su debut en noviembre pasado para construir un MVP funcional que se convirtió en PowerModeAI (una herramienta de creación de ideas y presentaciones orientada al cliente).
En la masterclass habrá una mezcla de presentación y ejercicios prácticos para cubrir temas que incluyen:
- Fundamentos de GPT- Trampas de los LLMs- Mejores prácticas y técnicas de ingeniería de prompts- Uso efectivo del playground- Instalación y configuración del SDK de OpenAI- Enfoques para trabajar con la API y la gestión de prompts- Implementación de la API para construir una aplicación orientada al cliente potenciada por IA- Ajuste fino y embeddings- Mejores prácticas emergentes en LLMOps