Así que la Web Speech API se divide en dos, el reconocimiento de voz y la conversión de voz a texto, y empieza a ser obvio cómo voy a usar el reconocimiento de voz aquí. Pero en realidad, una de las ideas principales fue creada para karaoke, pero fue para permitir a los desarrolladores usar el reconocimiento de voz como una entrada para formularios, dictado continuo, y control. De hecho, hay un borrador bastante antiguo que detalla cómo debería funcionar esta API en un campo de entrada. Es realmente antiguo, no todo fue implementado, pero sigue siendo una lectura muy interesante.
De hecho, puedes ver esta visión en vivo en una herramienta con la que muchos de nosotros estamos familiarizados. En Chrome, al usar Google Translate, puedes usar la función de micrófono para hablar en un campo de entrada y verlo traducido en texto. Pensé, genial, el código funciona en mi cabeza, así que veamos cuál es el soporte del navegador. Estaba bastante optimista. Fui a MDN, y parece que actualmente no es compatible con Firefox, y cualquier otro navegador aún requiere un prefijo de proveedor o un nombre diferente. Y pensé, está bien, un navegador menos, no es lo peor, sigamos. Incorrecto.
En realidad, este es un resultado más realista, en mi experiencia. Y resulta que la explicación es bastante simple. Esta cita de la página de MDN dice, en algunos navegadores como Chrome, usar el reconocimiento de voz en una página web implica un motor de reconocimiento basado en servidor. Tu audio se envía a un servicio web para el procesamiento de reconocimiento, por lo que no funcionará sin conexión. Correcto. Pensándolo bien, tiene sentido. Necesita acceso a muchos datos para entrenar. Así que los proveedores de navegadores que pertenecen a grandes corporaciones tienen más facilidad con toda la infraestructura necesaria, así como con esos datos para entrenar.
Y esta es una nota importante, los navegadores que usan Chrome no necesariamente tienen acceso al servicio de transcripción de Google. Es un servicio de pago de Google, que Chrome puede usar de forma gratuita. Nuevamente, sí, tiene sentido. Y al probarlo en Safari, se me presentó un popover que decía que los datos de voz de esta aplicación se enviarán a Apple para procesar tus solicitudes. Esto también ayudará a Apple a mejorar su tecnología de reconocimiento de voz. Muy bien. En este punto, me quedan solo dos navegadores. Pero estaba demasiado involucrado, así que no voy a rendirme. Pero tenía curiosidad, ¿qué está pasando en Firefox? Desafortunadamente, no pude estar en contacto con alguien que esté trabajando actualmente en esto, pero me señalaron un hilo esclarecedor que habla sobre sus preocupaciones sobre la privacidad y la implementación. Así que es un hilo realmente interesante. Realmente recomiendo echarle un vistazo, especialmente si tienes curiosidad por ver por qué algunos navegadores toman las decisiones que toman.
Comments