Versión en EspañolES

Sin Dependencias, No Hay Problema: Transmitiendo IA por Teléfono

Marius Obert

Twilio

This ad is not shown to multipass and full ticket holders

React Advanced 2026

October 23 - 26, 2026

London, UK & Online

We will be diving deep

Learn More

Bookmark

Sentry

Promoted

Code breaks, fix it faster

Crashes, slowdowns, regressions in prod. Seer by Sentry unifies traces, replays, errors, profiles to find root causes fast.

Get started

¿Qué pasaría si pudieras construir un agente telefónico que escucha, piensa y habla, sin tocar una sola API de reconocimiento de voz o lidiar con infraestructura en la nube? ¿Y si todo lo que se necesitara fuera un WebSocket y algo de JavaScript que ya conoces?
En esta charla, verás cómo conectar un bucle de voz de IA mínimo usando herramientas modernas como Bun, sin dependencias y sin plantillas que se interpongan en el camino. Es una demostración rápida y práctica que vuelve a centrar la atención en la lógica empresarial, y muestra lo poco que se necesita para comenzar.

This talk has been presented at JSNation 2025, check out the latest edition of this JavaScript Conference.

artificial intelligence

Marius Obert

6 min

12 Jun, 2025

Comments

Video Summary and Transcription

Marius de Twilio demuestra cómo construir agentes de IA para llamadas telefónicas, abordando problemas de latencia aprovechando la infraestructura de Twilio y proveedores externos como 11 Labs y Google Cloud. La configuración incluye integración de WebSocket para el manejo de mensajes, respuestas estáticas y conversión de texto a voz con 11 Labs. La integración de IA involucra GPT4 o un modelo mini para el almacenamiento del historial de conversaciones. Una demostración en vivo muestra un asistente de voz de IA con respuestas instantáneas y mejoras en la latencia.

Available in English: No Dependencies, No Problem: Streaming AI Over the Phone

1. Building AI Agents for Phone Calls

Short description:

Marius de Twilio discute sobre la construcción de agentes de IA para llamadas telefónicas, abordando problemas de latencia aprovechando la infraestructura de Twilio y proveedores externos como 11 Labs y Google Cloud. Aloja un servidor WebSockets, procesa texto con LLMs y logra comunicación de baja latencia. Demuestra la construcción de un agente en tres minutos usando BUN para alojamiento de servidor web e integración de WebSocket.

Hola a todos. Soy Marius. Trabajo en el equipo de relaciones con desarrolladores en Twilio, y eso significa que hablo con muchos desarrolladores que usan nuestras APIs, como la API de mensajería de texto o la API de voz. Y una cosa que muchos desarrolladores han querido construir recientemente es un agente de IA que pueda hacer una llamada telefónica o recibir una llamada telefónica. Permítanme mostrarles cómo suele ir esta historia desde la perspectiva de un desarrollador. Tienes todos los grandes modelos que quieres combinar, uno para reconocimiento automático de voz, uno para detección de interrupciones y el modelo de texto a voz. Los combinas todos juntos y, en teoría, funciona bien, pero luego rápidamente se dan cuenta de la latencia.

La latencia es simplemente que dices algo, esperas, no pasa nada, y luego dices algo de nuevo, y luego el modelo comienza a hablar, y eso arruina toda la experiencia. Así que necesitan encontrar una manera de solucionar esto. Algo que proporcionamos en Twilio es que básicamente puedes desplazar mucha responsabilidad a nuestra infraestructura, como el reconocimiento automático de voz, texto a voz, y trabajamos con proveedores de primera clase, como 11 Labs o Google Cloud, para proporcionar estos servicios, y solo necesitas centrarte en la configuración.

Y lo que realmente necesitas hacer al final es alojar un servidor WebSockets que reciba texto, y luego puedes procesarlo con tus propios LLMs. Puedes enviarlo a un LLM que se ejecute cerca de tu máquina con baja latencia, y simplemente transmites texto de vuelta. Y, de hecho, puedes construir un agente en tres minutos. Hagámoslo juntos. Así que uso BUN para alojar un servidor web simple. Puedes simplemente, por diversión de usar un nuevo stack de vez en cuando, lo expongo en el puerto 5050, y luego tengo esta función fetch que lo único que hace es actualizar HTTP a WebSocket, y luego adjunto un objeto de datos, para que pueda reconocer el mismo flujo nuevamente.

2. WebSocket Configuration and AI Integration

Short description:

Configuración de callbacks de WebSocket para manejo de mensajes, registro de prompts e implementación de respuestas estáticas. Integración con 11 Labs para texto a voz. Involucrando IA con GPT4 o mini model para almacenamiento y recuperación del historial de conversaciones.

Tendría sentido usar el número de teléfono aquí, pero solo usaría una marca de tiempo, porque yo sería el único que llamaría de todos modos. Y luego, en la configuración de WebSocket, solo tengo un callback cuando el socket está abierto. Cuando está cerrado, vamos a formatearlo un poco. Y luego la parte interesante sucede aquí, cuando llega un mensaje. Paso la carga útil JSON, y luego cuando el mensaje es del tipo prompt, que será mayormente así. De todos modos, registro esto en la consola, y por ahora, tengamos una respuesta codificada que diga que es una gran pregunta. Y luego lo registro en la consola, y simplemente lo transmito de vuelta. Y lo que también hago es registrar los otros tipos para que los veas, pero no tenemos que preocuparnos por ellos por ahora.

Bien, vamos a ejecutarlo. Ejecuto mi servidor. Expongo este puerto a internet, y si voy aquí a mi configuración, ves que cada vez que una llamada llega a un número de teléfono, se conecta a mi servidor WebSocket. Esto es lo que uso 11 Labs para texto a voz. Esta idea particular de la voz, y esta es la frase inicial. Vamos a llamarlo, y esperemos que funcione. ¿Está el audio? Déjame comprobar. Esa es una gran pregunta. Oye, ¿cuál es la capital de Francia? Esa es una gran pregunta. Ves, siempre obtengo la misma respuesta de vuelta. ¿Por qué? Porque no hago nada aquí. Solo digo que devuelva una respuesta estática, pero viste qué tan rápida fue la latencia. Entonces, si miro los registros, ves que el texto a voz, y voz a texto sucedieron instantáneamente. Ahora, vamos a involucrar algo de IA aquí, y si profundizo en eso, eso se importa automáticamente.

Ves, ¿qué hago aquí? Bueno, tengo una declaración if para ver si ya conozco este ID de conversación. Si no lo conozco, solo uso el GPT4 o mini model. Agrego un prompt del sistema, y el prompt del usuario. Agrego una herramienta de búsqueda web, y me aseguro de almacenar el historial en el lado del servidor en OpenAI, y luego si la respuesta regresa, la guardo. Así que, cuando hago otra pregunta la próxima vez, la declaración if se activa aquí, y luego puedo referirme a la conversación anterior, así que no tengo que llevar ese array de mensajes todo el tiempo. Solo tengo que agregar el prompt más reciente. Intentémoslo de nuevo. Reinicio el servidor.

3. AI Voice Assistant Demo and Latency Solutions

Short description:

Demostración del Asistente de Voz AI con respuestas instantáneas y mejoras de latencia. Marius presenta una demostración del asistente de voz AI, mostrando tiempos de respuesta rápidos y soluciones de latencia.

Llámalo de nuevo. Hola, estás conectado al asistente de voz AI impulsado por Twilio Conversation Relay. ¿Cuál es la capital de Francia? La capital de Francia es París. ¿Y la de Alemania? La capital de Alemania es Berlín. Berlín. ¿Quién ganó la UEFA Nations League el fin de semana pasado? Portugal ganó la final de la UEFA Nations League contra España el 8 de junio de 2025 en Múnich. El partido terminó 2-2 después de tiempo extra, y Portugal aseguró una victoria de 5-3 en la tanda de penales. Así que tienes la idea, ¿verdad?

Y aquí estaba registrando el tiempo de respuesta de OpenAI en la consola. Podrías notar cuando tenía que hacer una búsqueda web. Tomó un poco más de tiempo. Cosas que podrías hacer, podrías decir, oh, podrías agregar un mensaje como, oh, déjame pensar sobre ello. Y luego activaste una solicitud, así que hay formas de solucionarlo para que parezca más rápido. Pero ya puedes notar básicamente que la latencia de voz a texto y de texto a voz fue básicamente cero, diría yo.

Y luego solo tenías la del LLM, que probablemente tampoco sea la mejor en esta red en mi MacBook local. Pero esa es mi demostración y whoop, así de fácil, los problemas de latencia desaparecieron. Gracias. Soy Marius. Si tienes preguntas sobre esto u otros casos de uso de AI con voz, nuestro stand está allá arriba. Puedes encontrarme en el próximo descanso. Gracias.

Available in other languages:

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript

JSNation 2023

21 min

Construyendo un Asistente AI Activado por Voz con Javascript

Top Content

Tejas Kumar

Author of the "Fluent React" bestselling book, software engineer with 23 years of experience, and host of the developer-loved ConTejas Code podcast.

This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.

artificial intelligence case study

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

JSNation US 2024

31 min

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

Top Content

Addy Osmani

Engineering Leader Working on Google Chrome

AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.

artificial intelligence

El Ascenso del Ingeniero de IA

React Summit US 2023

30 min

El Ascenso del Ingeniero de IA

Top Content

Shawn Swyx Wang

Latent.Space Editor & Smol.ai Founder

The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.

builders and founders future of development web development artificial intelligence

IA y Desarrollo Web: ¿Exageración o Realidad?

JSNation 2023

24 min

IA y Desarrollo Web: ¿Exageración o Realidad?

Top Content

Wes Bos

Full Stack Developer, Speaker & Teacher, Co-host of Syntax.fm podcast.

This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.

artificial intelligence productivity

El Ingeniero de Software Nativo de AI

JSNation US 2025

35 min

El Ingeniero de Software Nativo de AI

Top Content

Addy Osmani

Engineering Leader Working on Google Chrome

Software engineering is evolving with AI and VIBE coding reshaping work, emphasizing collaboration and embracing AI. The future roadmap includes transitioning from augmented to AI-first and eventually AI-native developer experiences. AI integration in coding practices shapes a collaborative future, with tools evolving for startups and enterprises. AI tools aid in design, coding, and testing, offering varied assistance. Context relevance, spec-driven development, human review, and AI implementation challenges are key focus areas. AI boosts productivity but faces verification challenges, necessitating human oversight. The impact of AI on code reviews, talent development, and problem-solving evolution in coding practices is significant.

artificial intelligence

Aplicaciones Web del Futuro con Web AI

JSNation 2024

32 min

Aplicaciones Web del Futuro con Web AI

Jason Mayes

Web AI Lead at Google.

Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.

artificial intelligence

Workshops on related topic

IA a demanda: IA sin servidor

DevOps.js Conf 2024

163 min

IA a demanda: IA sin servidor

Top Content

Featured WorkshopFree

Nathan Disidore

En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.

serverless artificial intelligence architecture

AI para Desarrolladores de React

React Advanced 2024

142 min

AI para Desarrolladores de React

Top Content

Featured Workshop

Eve Porcello

El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)

react next.js artificial intelligence

Building Full Stack Apps With Cursor

JSNation 2025

46 min

Building Full Stack Apps With Cursor

Featured Workshop

Mike Mikula

En esta masterclass cubriré un proceso repetible sobre cómo iniciar aplicaciones full stack en Cursor. Espere comprender técnicas como el uso de GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usarlos en notas para generar listas de verificación que guíen el desarrollo de aplicaciones. Profundizaremos más en cómo solucionar alucinaciones/errores que ocurren, indicaciones útiles para hacer que su aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espere poder ejecutar su propia aplicación full stack generada por IA en su máquina!
Por favor, encuentre las preguntas frecuentes aquí

artificial intelligence

How to 9,2x Your Development Speed with Cline

JSNation 2025

64 min

How to 9,2x Your Development Speed with Cline

Featured Workshop

Nik Pash

La forma en que escribimos código está cambiando fundamentalmente. En lugar de quedar atrapado en bucles anidados y detalles de implementación, imagine enfocarse puramente en la arquitectura y la resolución creativa de problemas mientras su programador de pares de IA maneja la ejecución. En esta masterclass práctica, te mostraré cómo aprovechar Cline (un agente de codificación autónomo que recientemente alcanzó 1M de descargas en VS Code) para acelerar drásticamente tu flujo de trabajo de desarrollo a través de una práctica que llamamos "vibe coding" - donde los humanos se enfocan en el pensamiento de alto nivel y la IA maneja la implementación.Descubrirás:Los principios fundamentales del "vibe coding" y cómo se diferencia del desarrollo tradicionalCómo diseñar soluciones a un alto nivel y hacer que la IA las implemente con precisiónDemostración en vivo: Construcción de un sistema de almacenamiento en caché de grado de producción en Go que nos ahorró $500/semanaTécnicas para usar IA para entender bases de código complejas en minutos en lugar de horasMejores prácticas para solicitar a los agentes de IA que obtengan exactamente el código que deseasErrores comunes a evitar al trabajar con asistentes de codificación de IAEstrategias para usar IA para acelerar el aprendizaje y reducir la dependencia de ingenieros seniorCómo combinar efectivamente la creatividad humana con las capacidades de implementación de IAYa sea que seas un desarrollador junior que busca acelerar tu aprendizaje o un ingeniero senior que desea optimizar tu flujo de trabajo, saldrás de esta masterclass con experiencia práctica en desarrollo asistido por IA que puedes aplicar inmediatamente a tus proyectos. A través de demostraciones de codificación en vivo y ejercicios prácticos, aprenderás cómo aprovechar Cline para escribir mejor código más rápido mientras te enfocas en lo que importa: resolver problemas reales.

artificial intelligence

La Guía del Desarrollador de React para la Ingeniería de AI

React Summit US 2025

96 min

La Guía del Desarrollador de React para la Ingeniería de AI

Featured WorkshopFree

Niall Maher

Una masterclass integral diseñada específicamente para desarrolladores de React listos para convertirse en ingenieros de AI. Aprende cómo tus habilidades existentes de React—pensamiento en componentes, gestión de estado, manejo de efectos y optimización del rendimiento—se traducen directamente en la construcción de aplicaciones de AI sofisticadas. Cubriremos todo el stack: integración de API de AI, respuestas en streaming, manejo de errores, persistencia de estado con Supabase y despliegue con Vercel.Traducción de habilidades:- Ciclo de vida de componentes → Ciclo de vida de conversación de AI- Gestión de estado → Gestión de contexto y memoria de AI- Manejo de efectos → Streaming de respuestas de AI y efectos secundarios- Optimización del rendimiento → Caché de AI y optimización de solicitudes- Patrones de prueba → Estrategias de prueba de interacción de AILo que construirás: Una herramienta completa de gestión de proyectos impulsada por AI que muestra patrones de integración de AI a nivel empresarial.

artificial intelligence

Construir agentes LLM en TypeScript con Mastra y Vercel AI SDK

React Advanced 2025

145 min

Construir agentes LLM en TypeScript con Mastra y Vercel AI SDK

Featured WorkshopFree

Eric Burel

Los LLMs no son solo motores de búsqueda sofisticados: sientan las bases para construir piezas de software autónomas e inteligentes, también conocidas como agentes.
Las empresas están invirtiendo masivamente en infraestructuras de IA generativa. Para obtener el valor de su inversión, necesitan desarrolladores que puedan sacar el máximo provecho de un LLM, y ese podrías ser tú.
Descubre la pila de TypeScript para el desarrollo basado en LLM en esta masterclass de 3 horas. Conéctate a tu modelo favorito con el Vercel AI SDK y convierte líneas de código en agentes de IA con Mastra.ai.

typescript artificial intelligence