Web Speech API Insights

Rate this content
Bookmark

Las interfaces de voz nos rodean a diario, ayudándonos con algunas tareas. Pero olvidemos la productividad por un segundo y experimentemos con nuestra voz en la Web.
Veremos el estado actual del Web Speech API, exploraremos su potencial en Karaoke, ¡y nos divertiremos un poco!

This talk has been presented at JSNation US 2024, check out the latest edition of this JavaScript Conference.

Ana Rodrigues
Ana Rodrigues
21 min
21 Nov, 2024

Comments

Sign in or register to post your comment.
Video Summary and Transcription
¡Hola, JS Nation! Hoy, les mostraré cómo creé un karaoke gamificado usando Web Speech API. El Web Speech API tiene dos partes: reconocimiento de voz y conversión de voz a texto. Originalmente fue construido para karaoke, pero también puede usarse para formularios y dictado. Hay algunas peculiaridades con el API de reconocimiento de voz, como la entrada limitada del micrófono y la variación en la implementación y preocupaciones de privacidad a través de los navegadores. El orador demuestra cómo implementar el reconocimiento de voz en una aplicación de karaoke y prueba sus capacidades de coincidencia de errores. Otros puntos interesantes incluyen consideraciones de diseño de interfaces de voz y el valor de participar en proyectos secundarios divertidos y poco productivos.

1. Parte 1 - Introducción

Short description:

¡Hola, JS Nation! Hoy, les mostraré cómo creé un karaoke gamificado usando Web Speech API. Soy Anna, una desarrolladora frontend en Hattar. Me apasiona la comunidad IndieWeb y he escrito sobre ello en Smash Magazine. ¡Vamos a sumergirnos! Tenía un problema con las canciones de karaoke, así que decidí gamificar la experiencia. Les explicaré cómo utilicé la función de reconocimiento de voz nativa del navegador, es decir, Web Speech API.

¡Hola, JS Nation! Estoy muy feliz de estar aquí con ustedes hoy. Les voy a mostrar cómo he creado mi propio karaoke gamificado en un navegador usando Web Speech API. Así que permítanme presentarme.

Hola, mi nombre es Anna y soy una desarrolladora frontend en la agencia Hattar. Paso la mayor parte de mi tiempo libre en mi blog, y estoy bastante interesada en la comunidad IndieWeb. De hecho, en el pasado, he escrito un caso para ello en Smash Magazine. Así que por favor échenle un vistazo y si están en el chat, por favor envíenme sus sitios web personales y blogs. Me encantaría leerlos.

Bien, antes de comenzar, debo mencionar una cosa en particular. No represento a ningún proveedor de navegadores. Y por eso, no he ido a karaoke en años ahora. Y en realidad pensé que recibiría más invitaciones después de dar esta charla varias veces, pero no ha sucedido. Y también, en realidad soy una gran fan de The Rasmus. No soy una fanática, solo una fan. Y la razón por la que menciono esto es que es la razón por la que esta charla incluso surgió en mi mente. Tenía un problema que necesitaba solucionar.

Así que cada vez que voy a karaoke, solo hay una canción de The Rasmus disponible. Siempre está en el chat en las sombras. Y simplemente no es mi favorita. Así que pop, seguro. Pero necesitaba más. Así que empecé a pensar, está bien, ¿y si tuviéramos más que solo letras en la pantalla? ¿Y si pudiéramos gamificar la experiencia? Porque sé que ganaría. Conozco todas las letras de memoria. Así que me propuse una aventura para crear mi experiencia de karaoke perfecta. Y spoiler, no salió tan bien como imaginé. Así que veamos por qué. Busqué reconocimiento de voz a texto, y todos los resultados que aparecieron eran de empresas privadas que ofrecen este tipo de API como un servicio por un costo. Pero sabemos que hay un reconocimiento de voz nativo del navegador, y es gratis. Así que pensé, no, no voy a gastar dinero en esto. Así que hablemos de Web Speech API, en particular, el reconocimiento de voz.

2. Parte 2 - Web Speech API

Short description:

La Web Speech API tiene dos partes: reconocimiento de voz y conversión de voz a texto. Originalmente fue creada para karaoke, pero también puede usarse para formularios y dictado. Aunque no es compatible con Firefox, Chrome proporciona un motor de reconocimiento basado en servidor. Chrome tiene acceso al servicio de transcripción de Google, mientras que Safari envía datos de voz a Apple. La implementación y las preocupaciones de privacidad varían entre navegadores.

Así que la Web Speech API se divide en dos, el reconocimiento de voz y la conversión de voz a texto, y empieza a ser obvio cómo voy a usar el reconocimiento de voz aquí. Pero en realidad, una de las ideas principales fue creada para karaoke, pero fue para permitir a los desarrolladores usar el reconocimiento de voz como una entrada para formularios, dictado continuo, y control. De hecho, hay un borrador bastante antiguo que detalla cómo debería funcionar esta API en un campo de entrada. Es realmente antiguo, no todo fue implementado, pero sigue siendo una lectura muy interesante.

De hecho, puedes ver esta visión en vivo en una herramienta con la que muchos de nosotros estamos familiarizados. En Chrome, al usar Google Translate, puedes usar la función de micrófono para hablar en un campo de entrada y verlo traducido en texto. Pensé, genial, el código funciona en mi cabeza, así que veamos cuál es el soporte del navegador. Estaba bastante optimista. Fui a MDN, y parece que actualmente no es compatible con Firefox, y cualquier otro navegador aún requiere un prefijo de proveedor o un nombre diferente. Y pensé, está bien, un navegador menos, no es lo peor, sigamos. Incorrecto.

En realidad, este es un resultado más realista, en mi experiencia. Y resulta que la explicación es bastante simple. Esta cita de la página de MDN dice, en algunos navegadores como Chrome, usar el reconocimiento de voz en una página web implica un motor de reconocimiento basado en servidor. Tu audio se envía a un servicio web para el procesamiento de reconocimiento, por lo que no funcionará sin conexión. Correcto. Pensándolo bien, tiene sentido. Necesita acceso a muchos datos para entrenar. Así que los proveedores de navegadores que pertenecen a grandes corporaciones tienen más facilidad con toda la infraestructura necesaria, así como con esos datos para entrenar.

Y esta es una nota importante, los navegadores que usan Chrome no necesariamente tienen acceso al servicio de transcripción de Google. Es un servicio de pago de Google, que Chrome puede usar de forma gratuita. Nuevamente, sí, tiene sentido. Y al probarlo en Safari, se me presentó un popover que decía que los datos de voz de esta aplicación se enviarán a Apple para procesar tus solicitudes. Esto también ayudará a Apple a mejorar su tecnología de reconocimiento de voz. Muy bien. En este punto, me quedan solo dos navegadores. Pero estaba demasiado involucrado, así que no voy a rendirme. Pero tenía curiosidad, ¿qué está pasando en Firefox? Desafortunadamente, no pude estar en contacto con alguien que esté trabajando actualmente en esto, pero me señalaron un hilo esclarecedor que habla sobre sus preocupaciones sobre la privacidad y la implementación. Así que es un hilo realmente interesante. Realmente recomiendo echarle un vistazo, especialmente si tienes curiosidad por ver por qué algunos navegadores toman las decisiones que toman.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Depuración de JS
React Summit 2023React Summit 2023
24 min
Depuración de JS
Top Content
Debugging JavaScript is a crucial skill that is often overlooked in the industry. It is important to understand the problem, reproduce the issue, and identify the root cause. Having a variety of debugging tools and techniques, such as console methods and graphical debuggers, is beneficial. Replay is a time-traveling debugger for JavaScript that allows users to record and inspect bugs. It works with Redux, plain React, and even minified code with the help of source maps.
Un Marco para Gestionar la Deuda Técnica
TechLead Conference 2023TechLead Conference 2023
35 min
Un Marco para Gestionar la Deuda Técnica
Top Content
Today's Talk discusses the importance of managing technical debt through refactoring practices, prioritization, and planning. Successful refactoring requires establishing guidelines, maintaining an inventory, and implementing a process. Celebrating success and ensuring resilience are key to building a strong refactoring culture. Visibility, support, and transparent communication are crucial for addressing technical debt effectively. The team's responsibilities, operating style, and availability should be transparent to product managers.
Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
Una Guía Práctica para Migrar a Componentes de Servidor
React Advanced 2023React Advanced 2023
28 min
Una Guía Práctica para Migrar a Componentes de Servidor
Top Content
React query version five is live and we'll be discussing the migration process to server components using Next.js and React Query. The process involves planning, preparing, and setting up server components, migrating pages, adding layouts, and moving components to the server. We'll also explore the benefits of server components such as reducing JavaScript shipping, enabling powerful caching, and leveraging the features of the app router. Additionally, we'll cover topics like handling authentication, rendering in server components, and the impact on server load and costs.
Solucionando Problemas de Rendimiento en React
React Advanced 2023React Advanced 2023
22 min
Solucionando Problemas de Rendimiento en React
Top Content
This Talk discusses various strategies to improve React performance, including lazy loading iframes, analyzing and optimizing bundles, fixing barrel exports and tree shaking, removing dead code, and caching expensive computations. The speaker shares their experience in identifying and addressing performance issues in a real-world application. They also highlight the importance of regularly auditing webpack and bundle analyzers, using tools like Knip to find unused code, and contributing improvements to open source libraries.
De Monolito a Micro-Frontends
React Advanced 2022React Advanced 2022
22 min
De Monolito a Micro-Frontends
Top Content
Microfrontends are considered as a solution to the problems of exponential growth, code duplication, and unclear ownership in older applications. Transitioning from a monolith to microfrontends involves decoupling the system and exploring options like a modular monolith. Microfrontends enable independent deployments and runtime composition, but there is a discussion about the alternative of keeping an integrated application composed at runtime. Choosing a composition model and a router are crucial decisions in the technical plan. The Strangler pattern and the reverse Strangler pattern are used to gradually replace parts of the monolith with the new application.

Workshops on related topic

Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Node Congress 2024Node Congress 2024
152 min
Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Featured Workshop
Emanuel Scirlet
Miguel Henriques
2 authors
Ven y aprende cómo puedes potenciar tus aplicaciones modernas y seguras utilizando GraphQL y Javascript. En este masterclass construiremos una API de GraphQL y demostraremos los beneficios del lenguaje de consulta para APIs y los casos de uso para los que es adecuado. Se requiere conocimiento básico de Javascript.
Construyendo una Aplicación de Shopify con React & Node
React Summit Remote Edition 2021React Summit Remote Edition 2021
87 min
Construyendo una Aplicación de Shopify con React & Node
Top Content
WorkshopFree
Jennifer Gray
Hanna Chen
2 authors
Los comerciantes de Shopify tienen un conjunto diverso de necesidades, y los desarrolladores tienen una oportunidad única para satisfacer esas necesidades construyendo aplicaciones. Construir una aplicación puede ser un trabajo duro, pero Shopify ha creado un conjunto de herramientas y recursos para ayudarte a construir una experiencia de aplicación sin problemas lo más rápido posible. Obtén experiencia práctica construyendo una aplicación integrada de Shopify utilizando el CLI de la aplicación Shopify, Polaris y Shopify App Bridge.Te mostraremos cómo crear una aplicación que acceda a la información de una tienda de desarrollo y pueda ejecutarse en tu entorno local.
Construye una sala de chat con Appwrite y React
JSNation 2022JSNation 2022
41 min
Construye una sala de chat con Appwrite y React
WorkshopFree
Wess Cope
Wess Cope
Las API/Backends son difíciles y necesitamos websockets. Utilizarás VS Code como tu editor, Parcel.js, Chakra-ui, React, React Icons y Appwrite. Al final de este masterclass, tendrás los conocimientos para construir una aplicación en tiempo real utilizando Appwrite y sin necesidad de desarrollar una API. ¡Sigue los pasos y tendrás una increíble aplicación de chat para presumir!
Problemas difíciles de GraphQL en Shopify
GraphQL Galaxy 2021GraphQL Galaxy 2021
164 min
Problemas difíciles de GraphQL en Shopify
WorkshopFree
Rebecca Friedman
Jonathan Baker
Alex Ackerman
Théo Ben Hassen
 Greg MacWilliam
5 authors
En Shopify a gran escala, resolvemos algunos problemas bastante difíciles. En este masterclass, cinco oradores diferentes describirán algunos de los desafíos que hemos enfrentado y cómo los hemos superado.

Tabla de contenidos:
1 - El infame problema "N+1": Jonathan Baker - Vamos a hablar sobre qué es, por qué es un problema y cómo Shopify lo maneja a gran escala en varios APIs de GraphQL.
2 - Contextualizando APIs de GraphQL: Alex Ackerman - Cómo y por qué decidimos usar directivas. Compartiré qué son las directivas, qué directivas están disponibles de forma predeterminada y cómo crear directivas personalizadas.
3 - Consultas de GraphQL más rápidas para clientes móviles: Theo Ben Hassen - A medida que tu aplicación móvil crece, también lo harán tus consultas de GraphQL. En esta charla, repasaré diversas estrategias para hacer que tus consultas sean más rápidas y efectivas.
4 - Construyendo el producto del futuro hoy: Greg MacWilliam - Cómo Shopify adopta las características futuras en el código actual.
5 - Gestión efectiva de APIs grandes: Rebecca Friedman - Tenemos miles de desarrolladores en Shopify. Veamos cómo estamos asegurando la calidad y consistencia de nuestras APIs de GraphQL con tantos colaboradores.
De 0 a Autenticación en una Hora para tu Aplicación JavaScript
JSNation 2023JSNation 2023
57 min
De 0 a Autenticación en una Hora para tu Aplicación JavaScript
WorkshopFree
Asaf Shen
Asaf Shen
La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend Node.js + frontend Vanilla JS) para autenticar usuarios con contraseñas de un solo uso (correo electrónico) y OAuth, incluyendo:
- Autenticación de usuario: Gestión de interacciones de usuario, devolución de JWT de sesión / actualización- Gestión y validación de sesiones: Almacenamiento seguro de la sesión para solicitudes posteriores del cliente, validación / actualización de sesiones
Al final del masterclass, también abordaremos otro enfoque para la autenticación de código utilizando Flujos de Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.