La forma más recomendada es WebGPU. WebGPU es una API de navegador que permite al navegador ejecutar operaciones de GPU a través de JavaScript. Y luego el tipo D es básicamente la cuantización, así que la compresión que deseas usar con tu modelo. En ese caso, estás usando la precisión completa FP32, pero también podría ser cuantizado a 4 bits, 8 bits, lo que desees.
Y luego tienes el pipe. Puedes tomar cualquier entrada, ejecutarla a través del modelo, y obtendrás la salida. Así que el tipo de entrada y salida depende mucho de la tarea que vayas a usar.
OK, veamos cómo podemos resolver mis problemas con Transform.js. Comencemos con escuchar y hablar. Para la primera parte, tenemos una tarea llamada reconocimiento automático de voz, que básicamente es transcribir audio a texto.
Así que podemos usar el modelo Whisper Tiny. Es un modelo de transcripción muy pequeño de OpenAI. Luego podemos crear el transcriptor. Podemos tomar cualquier entrada de audio, ejecutarla a través del transcriptor, y obtendremos la salida de texto.
Por otro lado, podemos usar Kokoro. Y Kokoro es una biblioteca muy pequeña que nos permite sintetizar texto en voz. Podemos usar una biblioteca llamada Kokoro.js. Es una pequeña abstracción sobre Transform.js. También fue escrita por Joshua, así que es muy similar.
Lo que podemos hacer aquí es tomar cualquier texto, podemos definir una voz, y luego devolverá el audio. OK, intentémoslo. Así que tengo una pequeña tubería, que graba lo que digo. Lo transcribirá, lo sintetizará, y lo devolverá.
Así que puedo decir, hola, ¿cómo estás? Y si el audio funciona, hola, ¿cómo estás? Perfecto. Así que ahora tenemos una tubería de extremo a extremo, pero el problema es que no es realmente inteligente. Así que, ¿cómo podemos agregar inteligencia a esa tubería? Y lo más cercano que tenemos a la inteligencia ahora mismo son los modelos de lenguaje grandes.
Ahora, hay bastantes modelos de lenguaje grandes por ahí. La mayoría de nosotros usamos modelos en esta esquina superior izquierda. Tenemos GPT, tenemos Gemini, tenemos Claude. Pero esos son modelos de código cerrado.
Comments