Curso Intensivo de Agentes de Voz

This ad is not shown to multipass and full ticket holders
React Summit
React Summit 2026
June 11 - 15, 2026
Amsterdam & Online
The biggest React conference worldwide
Upcoming event
React Summit 2026
React Summit 2026
June 11 - 15, 2026. Amsterdam & Online
Learn more
Bookmark
Rate this content
Sentry
Promoted
Code breaks, fix it faster

Crashes, slowdowns, regressions in prod. Seer by Sentry unifies traces, replays, errors, profiles to find root causes fast.

Un curso intensivo práctico para desarrolladores que quieren evitar semanas de investigación y pasar directamente a la construcción. Cubriremos la terminología esencial, las tendencias actuales de la industria y el panorama real de servicios y bibliotecas. Aprenderás cuándo usar qué, y por qué algunas elecciones importan más que otras. Compartiré lecciones aprendidas al construir un agente de voz en producción para más de 10,000 conductores de camiones holandeses, incluidos los problemas de los que nadie habla. Al final, tendrás todo lo que necesitas para construir tu primer Agente de Voz funcional.

This talk has been presented at AI Coding Summit 2026, check out the latest edition of this Tech Conference.

Stepan Suvorov
Stepan Suvorov
26 min
26 Feb, 2026

Comments

Sign in or register to post your comment.
Video Summary and Transcription
Stepan Suvorov, CTO en Roadsoft, discute el auge de los Agentes de Voz, destacando el crecimiento del mercado, modelos mejorados para la conversión de voz a texto y generación de voz, reducción de latencia y rentabilidad. Los componentes clave incluyen conversión de voz a texto, análisis LLM, conversión de texto a voz, orquestación y abordaje de la latencia. Profundizando en aspectos esenciales como la detección de actividad de voz, manejo de interrupciones y criterios de selección de modelos para Agentes de Voz. Explorando parámetros como latencia, calidad, precios, soporte de idiomas y opciones de clonación de voz. Comparando soluciones DIY y gestionadas para Agentes de Voz, enfatizando la flexibilidad y rentabilidad. Discutiendo las implicaciones de costos entre soluciones gestionadas y autoalojadas, considerando volúmenes de uso y escala. Abordando desafíos de infraestructura, enfoques de prueba, límites de WAPI, selección de modelos y planes futuros para agentes de voz.
Available in English: Voice Agents Crash Course

1. Analizando el Auge de los Agentes de Voz

Short description:

Stepan Suvorov, CTO en Roadsoft, discute el auge de los Agentes de Voz, destacando el crecimiento del mercado, modelos mejorados para conversión de voz a texto y generación de voz, reducción de latencia y rentabilidad.

Hola a todos, estoy feliz de estar en el AI Coding Summit presentando un tema tan agradable como el Agente de Voz. Unas pocas palabras sobre mí. Soy Stepan Suvorov, CTO en Roadsoft. Soy un gran fan de JNI y todas las posibilidades que nos ofrece. Por eso comencé un canal de YouTube específicamente para ayudar a las personas a utilizar JNI tanto como sea posible. También siéntanse libres de conectarse conmigo a través de mi página de LinkedIn para hacer cualquier pregunta relacionada con JNI o específicamente con el Agente de Voz.

Así que, Agentes de Voz. Quiero destacar que esto es exactamente un curso intensivo. Hice una investigación durante varios meses porque también estamos construyendo nuestra propia función de negocio basada en Agente de Voz. Y ese es el resultado de esta investigación. Es una charla que tal vez te ayude a ahorrar algo de tiempo si estás a punto de comenzar. Entonces, ¿qué pasa con el Agente de Voz? ¿Por qué es tan interesante ahora? En primer lugar, si miras todos los números, vemos que mucha inversión está creciendo y casi duplicándose cada año. Solo si revisas la empresa 11Labs, el año pasado recaudaron $180 millones.

Y a principios de este año son $500, $500 millones. Eso es una locura. Y también la evaluación ya era de $11 mil millones. Así que esa es la empresa que proporciona Agentes de Voz. ¿También por qué ahora? ¿Por qué ahora el mercado está tan activo? La respuesta es muy simple. Los modelos mejoran. ¿Qué específicamente? La conversión de voz a texto ahora funciona mucho mejor. En términos de que comete muchos menos errores. Es más confiable. También la generación de voz ha mejorado mucho más de lo que era incluso hace cinco años.

A veces ni siquiera podemos darnos cuenta de que estábamos hablando con un Agente de Voz y no con un humano real. Además, debido a que los modelos mejoran cada vez más, la latencia disminuye significativamente. Por eso ahora podemos tener una conversación en tiempo real y no solo generar una voz a partir de texto. Y también eso se conecta con el costo. Si tener un Agente de Voz te costará mucho dinero, probablemente no optarás por ello. Pero si es razonable, si tu retorno de inversión es bueno, ¿por qué no construir una función así? Y ya hay muchos casos de uso en producción para el Agente de Voz.

2. Key Components and Challenges of Voice Agents

Short description:

Discutiendo la importancia de la voz como interfaz para personas ocupadas, los componentes clave del Agente de Voz incluyen conversión de voz a texto, análisis LLM, conversión de texto a voz, orquestación y abordaje de la latencia para conversaciones en tiempo real.

El más conocido es el soporte al cliente, pero hay muchos más. Y el en el que estamos trabajando lo llamé manos ocupadas. Porque solo imagina que muchas personas, trabajan no cerca de una computadora. Y a veces sus manos están ocupadas, eso significa que es un conductor o un trabajador de la construcción. Incluso si tienen un teléfono móvil donde podemos instalar una aplicación móvil, no pueden hacer clic en el móvil. Y la voz es la única interfaz para que interactúen con esta aplicación. Por eso realmente me gusta esta frase de Olivia Moore sobre la voz. Así que considera ser una voz, no un producto en sí, sino como una interfaz para tu producto. Así que es como una nueva forma de interactuar con el software. Antes era la IU, a veces la IU móvil. Pero ahora, viene una nueva ola. Será cada vez más.

Así que ahora veamos qué hay dentro del Agente de Voz. Primero, comenzamos con que obviamente el usuario necesita hablar y escuchar alguna respuesta. Pero ¿qué hay en el medio? En el medio, tenemos la primera parte que es el modelo de voz a texto o STT. ¿Y qué hace? Bueno, convierte la voz en texto. Cuando el usuario dice algo, como resultado, obtenemos no una transmisión de audio, sino un texto. Este texto va a los conocidos LLMs, modelo LLM que analiza el texto y también da una respuesta, respuesta en texto. Y el punto final, qué hacer con este texto, lo enviamos a otro modelo, texto a voz o modelo TTS que lo convierte en una transmisión de audio que podemos enviar de vuelta a nuestro usuario. Y para combinar todo esto de manera agradable, necesitamos una especie de orquestación que no solo combine sino que haga algunas características adicionales para nosotros. Y también, si quieres que el Agente de Voz se conecte a alguna línea de comunicación como un teléfono, también necesitamos pensar en el transporte. Así que esas son las partes principales que necesitas considerar al construir un Agente de Voz.

Además, lo que necesitas tener en cuenta es la latencia. Si quieres una conversación en tiempo real, pero no solo mensajes de voz, para que el agente pueda responder, necesitas apuntar a que no sea más de 500 milisegundos. Y eso es todo un desafío, diría yo, porque si miras todos los modelos, primero tienes que hacer voz a texto, luego LLM, luego texto a voz, no olvides también alguna latencia de red y terminas con un número que es significativamente, como, más de dos veces más alto que nuestro objetivo inicial. Así que aquí tendrás que pensar en diferentes tipos de optimizaciones para lograr esto. También algunos conceptos clave más que es mejor conocer al construir Agentes de Voz. En primer lugar, todo va en la transmisión. No quieres que tu modelo de texto a voz comience a generar transmisión de audio mientras LLM está listo con la respuesta. Quieres hacerlo inmediatamente.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Depuración de JS
React Summit 2023React Summit 2023
24 min
Depuración de JS
Top Content
Debugging JavaScript is a crucial skill that is often overlooked in the industry. It is important to understand the problem, reproduce the issue, and identify the root cause. Having a variety of debugging tools and techniques, such as console methods and graphical debuggers, is beneficial. Replay is a time-traveling debugger for JavaScript that allows users to record and inspect bugs. It works with Redux, plain React, and even minified code with the help of source maps.
Un Marco para Gestionar la Deuda Técnica
TechLead Conference 2023TechLead Conference 2023
35 min
Un Marco para Gestionar la Deuda Técnica
Top ContentPremium
Today's Talk discusses the importance of managing technical debt through refactoring practices, prioritization, and planning. Successful refactoring requires establishing guidelines, maintaining an inventory, and implementing a process. Celebrating success and ensuring resilience are key to building a strong refactoring culture. Visibility, support, and transparent communication are crucial for addressing technical debt effectively. The team's responsibilities, operating style, and availability should be transparent to product managers.
Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
Una Guía Práctica para Migrar a Componentes de Servidor
React Advanced 2023React Advanced 2023
28 min
Una Guía Práctica para Migrar a Componentes de Servidor
Top Content
React query version five is live and we'll be discussing the migration process to server components using Next.js and React Query. The process involves planning, preparing, and setting up server components, migrating pages, adding layouts, and moving components to the server. We'll also explore the benefits of server components such as reducing JavaScript shipping, enabling powerful caching, and leveraging the features of the app router. Additionally, we'll cover topics like handling authentication, rendering in server components, and the impact on server load and costs.
De Monolito a Micro-Frontends
React Advanced 2022React Advanced 2022
22 min
De Monolito a Micro-Frontends
Top Content
Microfrontends are considered as a solution to the problems of exponential growth, code duplication, and unclear ownership in older applications. Transitioning from a monolith to microfrontends involves decoupling the system and exploring options like a modular monolith. Microfrontends enable independent deployments and runtime composition, but there is a discussion about the alternative of keeping an integrated application composed at runtime. Choosing a composition model and a router are crucial decisions in the technical plan. The Strangler pattern and the reverse Strangler pattern are used to gradually replace parts of the monolith with the new application.
Solucionando Problemas de Rendimiento en React
React Advanced 2023React Advanced 2023
22 min
Solucionando Problemas de Rendimiento en React
Top Content
This Talk discusses various strategies to improve React performance, including lazy loading iframes, analyzing and optimizing bundles, fixing barrel exports and tree shaking, removing dead code, and caching expensive computations. The speaker shares their experience in identifying and addressing performance issues in a real-world application. They also highlight the importance of regularly auditing webpack and bundle analyzers, using tools like Knip to find unused code, and contributing improvements to open source libraries.

Workshops on related topic

Construyendo una Aplicación de Shopify con React & Node
React Summit Remote Edition 2021React Summit Remote Edition 2021
87 min
Construyendo una Aplicación de Shopify con React & Node
Top Content
Workshop
Jennifer Gray
Hanna Chen
2 authors
Los comerciantes de Shopify tienen un conjunto diverso de necesidades, y los desarrolladores tienen una oportunidad única para satisfacer esas necesidades construyendo aplicaciones. Construir una aplicación puede ser un trabajo duro, pero Shopify ha creado un conjunto de herramientas y recursos para ayudarte a construir una experiencia de aplicación sin problemas lo más rápido posible. Obtén experiencia práctica construyendo una aplicación integrada de Shopify utilizando el CLI de la aplicación Shopify, Polaris y Shopify App Bridge.Te mostraremos cómo crear una aplicación que acceda a la información de una tienda de desarrollo y pueda ejecutarse en tu entorno local.
Construye una sala de chat con Appwrite y React
JSNation 2022JSNation 2022
41 min
Construye una sala de chat con Appwrite y React
Workshop
Wess Cope
Wess Cope
Las API/Backends son difíciles y necesitamos websockets. Utilizarás VS Code como tu editor, Parcel.js, Chakra-ui, React, React Icons y Appwrite. Al final de este masterclass, tendrás los conocimientos para construir una aplicación en tiempo real utilizando Appwrite y sin necesidad de desarrollar una API. ¡Sigue los pasos y tendrás una increíble aplicación de chat para presumir!
Problemas difíciles de GraphQL en Shopify
GraphQL Galaxy 2021GraphQL Galaxy 2021
164 min
Problemas difíciles de GraphQL en Shopify
Workshop
Rebecca Friedman
Jonathan Baker
Alex Ackerman
Théo Ben Hassen
 Greg MacWilliam
5 authors
En Shopify a gran escala, resolvemos algunos problemas bastante difíciles. En este masterclass, cinco oradores diferentes describirán algunos de los desafíos que hemos enfrentado y cómo los hemos superado.

Tabla de contenidos:
1 - El infame problema "N+1": Jonathan Baker - Vamos a hablar sobre qué es, por qué es un problema y cómo Shopify lo maneja a gran escala en varios APIs de GraphQL.
2 - Contextualizando APIs de GraphQL: Alex Ackerman - Cómo y por qué decidimos usar directivas. Compartiré qué son las directivas, qué directivas están disponibles de forma predeterminada y cómo crear directivas personalizadas.
3 - Consultas de GraphQL más rápidas para clientes móviles: Theo Ben Hassen - A medida que tu aplicación móvil crece, también lo harán tus consultas de GraphQL. En esta charla, repasaré diversas estrategias para hacer que tus consultas sean más rápidas y efectivas.
4 - Construyendo el producto del futuro hoy: Greg MacWilliam - Cómo Shopify adopta las características futuras en el código actual.
5 - Gestión efectiva de APIs grandes: Rebecca Friedman - Tenemos miles de desarrolladores en Shopify. Veamos cómo estamos asegurando la calidad y consistencia de nuestras APIs de GraphQL con tantos colaboradores.
Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Node Congress 2024Node Congress 2024
152 min
Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Workshop
Emanuel Scirlet
Miguel Henriques
2 authors
Ven y aprende cómo puedes potenciar tus aplicaciones modernas y seguras utilizando GraphQL y Javascript. En este masterclass construiremos una API de GraphQL y demostraremos los beneficios del lenguaje de consulta para APIs y los casos de uso para los que es adecuado. Se requiere conocimiento básico de Javascript.
De 0 a Autenticación en una Hora para tu Aplicación JavaScript
JSNation 2023JSNation 2023
57 min
De 0 a Autenticación en una Hora para tu Aplicación JavaScript
WorkshopFree
Asaf Shen
Asaf Shen
La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend Node.js + frontend Vanilla JS) para autenticar usuarios con contraseñas de un solo uso (correo electrónico) y OAuth, incluyendo:
- Autenticación de usuario: Gestión de interacciones de usuario, devolución de JWT de sesión / actualización- Gestión y validación de sesiones: Almacenamiento seguro de la sesión para solicitudes posteriores del cliente, validación / actualización de sesiones
Al final del masterclass, también abordaremos otro enfoque para la autenticación de código utilizando Flujos de Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.