¿De acuerdo? Y por supuesto, esto es genial, pero hay algunas compensaciones de las que deberías ser consciente. En primer lugar, está esta. Así que se necesita algo de uso de disco para descargar el modelo. Así que necesitamos alojar esto. Y la forma en que implementamos esto en estas demostraciones, por supuesto, no es óptima porque cuando el modelo se está ejecutando, el hilo principal está bloqueado. Así que necesitarás aislar eso, no sé, usando un hilo de trabajo o algo así, para que puedas atender más solicitudes mientras está funcionando. Y por supuesto, la primera carga toma algo de tiempo, así que estas son cosas de las que deberías ser consciente, ¿de acuerdo?
Pero para muchas aplicaciones que se ejecutan localmente, estos modelos, esta inferencia local, puede ser muy, muy útil, y es bastante simple de hacer. Como vimos, solo instalamos la dependencia, y funciona de maravilla. ¿De acuerdo? Todas las demostraciones aquí y todo lo que te mostré aquí, estaba funcionando en CPU, pero sabemos que esto no es ideal. Queremos aprovechar la GPU porque tienen mejores capacidades para manejar los modelos, especialmente modelos que involucran NLP.
De hecho, muchos, muchos modelos de redes neuronales aprovechan la GPU, así que queremos usar eso también, y puedes, de hecho. Así que el transformer.js ya funciona bien con la API WebGPU, así que si estás ejecutando un navegador, solo configura el dispositivo a WebGPU y esto va a funcionar. Y si estás trabajando en Node.js, esto va a funcionar, pero aún es inestable, así que necesitas instalar los transformers para Next, y luego obtienes esta capacidad, como las características de vista previa de esto, y luego podrás ejecutar en GPU. Así que, por ejemplo, si hice esa misma tarea de generación de texto, puedo hacer que se ejecute en GPU. La ejecución se verá igual, pero ahora necesitamos ejecutar en un chip diferente, así que será mucho mejor para ello. Así que, como puedes ver aquí en la demostración, a la izquierda tengo la ejecución del LLM, y a la derecha tengo el historial de GPU que muestra cómo está creciendo.
Comments