Video Summary and Transcription
Nico, un desarrollador frontend independiente y parte del programa de Expertos en Desarrolladores de Google, ofrece una introducción al aprendizaje automático en el navegador. Explica cómo el aprendizaje automático difiere de los algoritmos tradicionales y destaca el uso de TensorFlow.js para implementar el aprendizaje automático en el navegador. La charla también cubre el uso de diferentes backends, como WebGL, y la conversión de audio en espectrogramas para la comparación de modelos. Nico menciona el uso de superposición para mejorar la precisión de detección y la disponibilidad de detección de comandos de voz y entrenamiento de modelos personalizados con TensorFlow. En general, la charla enfatiza los beneficios de utilizar y entrenar modelos de aprendizaje automático directamente en el dispositivo.
1. Introducción al Aprendizaje Automático en el Navegador
Hola a todos. Soy Nico, un desarrollador frontend independiente de Suiza y parte del programa Google Developer Experts. Hoy les daré una breve introducción al aprendizaje automático en el navegador. De manera clásica, definimos reglas y condiciones para los algoritmos, pero el aprendizaje automático adopta un enfoque diferente al entrenar los algoritmos con datos de entrada y salida. TensorFlow.js nos permite utilizar el aprendizaje automático directamente en el navegador con JavaScript.
Hola a todos. Mi nombre es Nico. Soy un desarrollador frontend independiente de Suiza. También formo parte del programa Google Developer Experts para tecnologías web, lo que básicamente significa que paso demasiado tiempo libre jugando con todo tipo de nuevas tecnologías para navegadores.
Y hoy estoy aquí para darles una breve introducción al aprendizaje automático en el navegador. En los últimos años he dado muchas charlas, principalmente en inglés, algunas en alemán, pero solo dos charlas en Baden Dich, que es nuestro dialecto suizo alemán local. Ahora, en septiembre de 2021, di mi primera charla en suizo alemán, que afortunadamente fue grabada. Permítanme mostrarles un breve clip de eso. Y así sucesivamente. Como pueden ver, logré usar la palabra schlussendlich e im Endeffekt más de 35 veces en unos 30 minutos, lo cual fue extremadamente molesto para mí después. Ambas palabras básicamente significan finalmente o al final.
Ahora, en febrero de 2023, mi segunda charla en Bandage estaba a la vuelta de la esquina y era enormemente importante para mí encontrar una forma de detener esto. Así que busqué formas de detectar esas palabras en mi discurso. Lo más obvio sería utilizar la API de Reconocimiento de Voz en el navegador. El problema aquí es que esto funciona bastante bien para el alemán, pero no para el suizo alemán o incluso para Bandage. Pero nuevamente, el reconocimiento de voz no es más que modelos de aprendizaje automático, ¿verdad? Y ¿no podemos ejecutarlos directamente en el navegador? Por supuesto que sí.
En esta charla relámpago no podré profundizar en los detalles, pero quiero darles una breve descripción general. En el núcleo, el aprendizaje automático es un enfoque completamente diferente para escribir algoritmos. De manera clásica, cuando intentamos escribir un algoritmo para resolver un problema, definiríamos un conjunto de reglas y condiciones y luego pasaríamos una entrada y obtendríamos una salida. Y eso funciona muy bien para problemas simples, pero tan pronto como tenemos una entrada más compleja data, necesitamos una nueva forma de procesarla. Y el aprendizaje automático adopta este enfoque diferente. Aquí la idea es entrenar el algoritmo con una entrada y salida predefinidas y luego el algoritmo encuentra patrones por sí mismo. Esto significa que tenemos muchos datos de entrada y la salida esperada. Ahora la máquina aprende a predecir la salida esperada de una entrada similar. Este algoritmo entrenado es el núcleo del aprendizaje automático y se llama modelo. Y ahí es donde entra en juego TensorFlow. TensorFlow es una plataforma de aprendizaje automático de código abierto de extremo a extremo que te permite utilizar modelos pre-entrenados existentes, pero también entrenar nuevos modelos o ampliar modelos existentes con tu propio caso de uso. Y desde 2019, con TensorFlow.js, incluso podemos usarlo directamente en el navegador con JavaScript. Ahora, al igual que cualquier tarea de aprendizaje automático, TensorFlow.js depende de operaciones matemáticas bastante complejas. Estas operaciones se procesan en los llamados backends.
2. Aprendizaje Automático en el Navegador
La web puede utilizar diferentes backends, como WebGL, para el aprendizaje automático. El audio se puede convertir en espectrogramas para comparar con modelos. Una superposición puede mejorar la precisión de detección. TensorFlow ofrece detección de comandos de voz y permite entrenar modelos personalizados con Teachable Machine. El aprendizaje automático en el navegador permite usar y entrenar modelos directamente en el dispositivo.
Por ahora, la web puede utilizar un par de backends diferentes dependiendo del navegador y el sistema operativo. La forma más eficiente sería utilizar el backend WebGPU, pero eso requiere la API WebGPU que solo está disponible en Chrome Canary detrás de la bandera. Así que en mi ejemplo, estoy utilizando WebGL, que es el backend más eficiente que está disponible en la mayoría de los navegadores en este momento.
Ahora, probablemente todos hayamos visto ejemplos básicos de reconocimiento de imágenes, como en este caso la detección de puntos de referencia faciales, donde podemos dar una imagen como entrada y luego recibir la posición de los puntos clave en la cara. Y las imágenes funcionan bastante bien con el aprendizaje automático porque al final, los modelos de aprendizaje automático esperan una entrada numérica y devuelven una salida, y las imágenes no son más que los valores numéricos RGB en un rectángulo 2D.
Ahora, en mi caso, quiero reconocer ciertas palabras, y bueno, las palabras no son imágenes, ¿verdad? Excepto cuando lo son. Así que al final, cada fragmento de audio se puede convertir en un espectrograma, y imaginemos que tenemos 100 grabaciones de mí diciendo las palabras a Sandler. Ahora tenemos 100 imágenes de este clip de dos segundos que ahora podemos comparar con el espectrograma de mi charla. Ahora, por supuesto, es difícil comparar un espectrograma de toda la charla que crece con el tiempo con mi clip de dos segundos, pero podemos dividir la pista completa en partes de dos segundos y comparar esos dos segundos con nuestro modelo. El problema aquí es que perderemos muchas palabras, porque no podemos estar seguros de que la división realmente corte una palabra completa. La solución aquí sería agregar una superposición. En este caso, tenemos una superposición de 0.5, lo que significa que tenemos más imágenes por segundo para analizar. Cuanto mayor sea la superposición, más imágenes habrá para analizar y más precisa será la detección. En mi ejemplo, incluso necesité una superposición de 0.95 para obtener un resultado significativo.
Ahora, similar a la detección de puntos de referencia faciales, TensorFlow también ofrece detección de comandos de voz, y al igual que antes, podemos importarlo, podemos crear un reconocedor y podemos comenzar a escuchar. El modelo predeterminado busca un par de palabras clave predefinidas, pero por supuesto, mis palabras en suizo alemán no están en esa lista, así que necesito entrenar mi propio modelo. Con Teachable Machine, Google publicó una aplicación web que te permite entrenar tu propio modelo de imagen o audio basado en tus propios datos de entrada. En la derecha puedes ver mis datos de entrenamiento, donde tengo alrededor de una hora de mí hablando como la clase de fondo, y luego tenemos 50 y 70 ejemplos de las dos palabras clave que quiero detectar. Y con Teachable Machine, ahora puedo entrenar los datos en el navegador y simplemente genera el modelo para mí. Ahora, todo lo que necesito hacer es pasar el modelo creado y los metadatos a la función Create y ahora usará el nuevo modelo para detectar mi entrada personalizada. Mis diapositivas se están ejecutando en el navegador y ahora puedo activar el oyente. Eso puede llevar algo de tiempo. Ahora, cada vez que digo palabras como MandEffect, activará el zumbador. Y en realidad funcionó bastante bien en mi última charla en suizo alemán. Así que realmente espero haberlos inspirado con esta breve visión del aprendizaje automático en el navegador para que podamos usar modelos, entrenar nuevos modelos, todo directamente en el dispositivo en el navegador. Para obtener más y un conocimiento más profundo, también puedo recomendar el curso gratuito de Jason Maes de Google Machine Learning para desarrolladores web. Y con esto, me gustaría agradecerles por su interés y les deseo un buen resto de la conferencia. ¡Adiós!
Comments