Video Summary and Transcription
Esta charla explora el papel de JavaScript en el aprendizaje automático distribuido a gran escala, discutiendo la falta de herramientas y la accesibilidad de las implementaciones de aprendizaje automático. También abarca la arquitectura de aprendizaje automático basada en la nube, el aprendizaje automático en el borde y el uso de HarperDB para una implementación simplificada de aprendizaje automático. También se discute el concepto de IA iterativa y entrenamiento de modelos.
1. Introducción a JavaScript ML
Hola, bienvenidos a mi charla para JS Nation titulada Hasta el Límite y de Regreso: El Rol de JavaScript en el Aprendizaje Automático Distribuido a Escala. Soy un desarrollador en recuperación, padre de dos hijas, con sede en Denver, Colorado. Trabajo para HarperDB, una Plataforma de Aplicaciones Distribuidas construida completamente en Node.js. Hoy, exploraré el ecosistema de aprendizaje automático en JavaScript, la arquitectura táctica y los sistemas y métodos para ofrecer un acceso de alto rendimiento al aprendizaje automático e IA.
Hola, bienvenidos a mi charla para JS Nation titulada Hasta el Límite y de Regreso: El Rol de JavaScript en el Aprendizaje Automático Distribuido a Escala. Mi nombre es Jackson Repp. Soy un desarrollador en recuperación, padre de dos hijas. Estoy ubicado en Denver, Colorado. He sido parte de ocho startups, con dos salidas exitosas y cinco oportunidades de aprendizaje. Ahora trabajo para HarperDB, que es una Plataforma de Aplicaciones Distribuidas. Llevamos seis años en el mercado y tenemos numerosas implementaciones en producción y una comunidad bastante sólida.
Cuando hablo de HarperDB como el lugar donde trabajo, creo que lo más interesante para JS Nation es el hecho de que estamos construidos completamente en Node.js. Hemos aprovechado el lenguaje que ya amas. Podríamos haber elegido cualquier lenguaje, pero nos dimos cuenta de los enormes beneficios en términos de simplicidad y disponibilidad de recursos y plataformas de implementación. ¿Dónde puede ejecutarse JavaScript? Nos encanta centrarnos en la comunidad de JavaScript y, obviamente, el aprendizaje automático es una de esas áreas que ha crecido enormemente en el futuro cercano. ¿Y cómo se logra eso? ¿Cuáles son las logísticas detrás de ello? Eso es lo que quiero explorar hoy.
Entonces, el plan de estudios para este curso, supongo, sería comprender el ecosistema de aprendizaje automático en JavaScript. ¿Qué recursos tenemos disponibles para construir estas increíbles y geniales tecnologías que funcionan más cerca del usuario, aprovechando un lenguaje que todos amamos? Luego tenemos una sección llamada arquitectura táctica, que es cómo se hace actualmente o cómo se hacía en el pasado y hacia dónde creemos que se dirige con el tiempo. ¿Cómo podemos seguir ofreciendo un acceso de alto rendimiento al aprendizaje automático e IA y a estos modelos increíblemente complejos cuando ejecutarlos requiere tanta potencia y es posible que no tengas toda la potencia del mundo en tu teléfono o tal vez, ya sabes, en un navegador? Y finalmente, sistemas y métodos. Entonces, ¿cómo podemos abordar este problema? ¿Cuáles son las consideraciones que debemos tener en cuenta al planificar un sistema que sea verdaderamente distribuido e iterativo, como describiré cómo se ven esas arquitecturas? Así que hablemos del ecosistema de ML en JavaScript. Si es así, esta, como muchas tecnologías
2. Herramientas y Arquitectura Táctica de Aprendizaje Automático
Las personas se dan cuenta del aprendizaje automático y sus posibles aplicaciones. Sin embargo, la falta de herramientas requiere que los desarrolladores escriban código de bajo nivel para entrenar modelos y construir aplicaciones. Con la infraestructura adecuada, las implementaciones de aprendizaje automático se vuelven más accesibles. ChatGPT ha ganado una atención significativa y ofrece una solución completa y rápida. JavaScript es una excelente opción para llevar el aprendizaje automático al límite, con bibliotecas como TensorFlow.js y plataformas móviles como CoreML y MLK. La naturaleza jerárquica de acceso a los datos sugiere oportunidades para implementaciones en la nube, en el borde, lejos del borde y en dispositivos móviles. La arquitectura táctica implica el entrenamiento, la prueba y la implementación de modelos.
implementaciones, es un ciclo virtuoso. Primero, las personas se dan cuenta de ello, ¿verdad? Saben que el aprendizaje automático es algo real. Saben que puede ayudarles a identificar cosas en una foto o que pueden hacer recomendaciones utilizando esta tecnología. Pero las herramientas no están disponibles. Así que tienes que escribir código de bajo nivel para entrenar un modelo, para construir algo que pueda actuar según la entrada del usuario y darte una recomendación o una clasificación o lograr cualquier objetivo final que pueda ser.
Y luego se construye la infraestructura detrás de eso para soportar cosas que ahora podemos implementar porque tenemos las herramientas. Y con esa infraestructura, las implementaciones se vuelven más accesibles, lo que obviamente puedes lanzar a una audiencia más amplia, y luego comienza a crecer. Si observas la conciencia, lo primero de lo que todos están hablando es de ChatGPT hasta el punto de que las últimas tres semanas de llamadas de ganancias han incluido menciones de IA y ChatGPT en productos que ni siquiera parecían aprovecharlos porque el precio de las acciones sube, porque todos están tan emocionados y conscientes. Y en última instancia, queremos ofrecer este producto, esta solución, este resultado. Y es simple, accesible, completo y rápido. Y ChatGPT cumple con todas esas cosas. Y es tremendo si alguna vez lo has usado. Sabes que generalmente hay una espera para entrar y las cuentas comerciales son difíciles de conseguir y costosas, porque se requiere una cantidad tremenda de recursos para hacer algo tan impresionante como lo que hace ChatGPT. Ahora, obviamente, también es un poco aterrador en términos del alcance de lo que puede hacer. Es un modelo muy grande que ha sido entrenado con muchas piezas de datos y no todos necesitan implementar un motor de chat humano integral, pero hay un millón de otras aplicaciones para el aprendizaje automático, especialmente en el límite, que pueden aprovechar muchas de las mejores prácticas que ChatGPT nos ha presentado en términos de accesibilidad. Luego, miramos las herramientas que tenemos para seguir llevando esta lógica al límite, ¿verdad? ¿Cómo nos acercamos a esos usuarios? Y JavaScript, obviamente, al estar en todos los dispositivos cliente y ejecutarse prácticamente en todas partes, es una excelente opción para eso. Y aunque el aprendizaje automático y los modelos de aprendizaje automático y la IA tradicionalmente han estado en servidores con mucha potencia, como ChatGPT que entrena un modelo gigante, hay muchas bibliotecas disponibles. TensorFlow.js es el primo de JavaScript del rey de las plataformas de aprendizaje automático patrocinado por Google. Pero también tienes muchas otras plataformas disponibles para tomar datos, generar un modelo y finalmente implementarlo y ejecutarlo también en el límite, así como en plataformas móviles como CoreML y CreateML en iOS y MLK para Android. Por lo tanto, hay muchas formas de llevar esto tan lejos como sea posible. Ahora, nuevamente, se requiere potencia para crear y utilizar modelos, por lo que realmente depende de dónde lo vayas a hacer. Tradicionalmente, hemos hecho esto en la nube, ¿verdad? Ejecutamos un gran servidor con muchas GPU y construimos grandes modelos. Y luego configuramos una infraestructura en el límite o en otra región de la nube para aprovechar ese modelo, recibir solicitudes de clientes entrantes y ejecutar sus datos contra el modelo y obtener algún tipo de clasificación o conjunto de datos resultante. Pero a medida que seguimos viendo la naturaleza jerárquica de, digamos, cómo accedemos a los datos, probablemente haya una oportunidad de bifurcación o trifurcación. Solo la visión de las responsabilidades entre la nube y el límite cercano, es decir, los servidores que están más cerca de ti, el límite lejano, es decir, las zonas locales de AWS o en las instalaciones, cosas que están muy, muy cerca de ti. Y finalmente, las cosas que llevas contigo, una aplicación móvil o un navegador en tu teléfono o que se ejecuta en una computadora portátil. Por lo tanto, hay muchas cosas que necesitaban estar en su lugar y tener esas herramientas para que pudiéramos entregar los resultados a un nivel más local. Por lo tanto, observamos una arquitectura táctica, nuevamente, lo básico es que queremos entrenar un modelo, queremos probarlo y validar que funcione, y luego queremos implementarlo. Queremos ponerlo ahí fuera y que realmente
3. Arquitectura de Aprendizaje Automático Basada en la Nube
Queremos poner eso ahí fuera y hacer que realmente comience a hacer cosas por nosotros. Y cuando veo una arquitectura tradicional basada en la nube, tengo una fuente de datos, ya sea estática desde un lago de datos o una base de datos gigante, o tengo datos en streaming que provienen de aplicaciones, clientes, sensores, y luego tengo un pipeline de aprendizaje automático donde realizo todo el entrenamiento y las pruebas. Y luego tengo algún tipo de operaciones de aprendizaje automático, que es una palabra clave muy popular en este momento, y hay muchas herramientas, Kubeflow es una de ellas, funciona muy bien con Kubernetes. Y luego está la distribución hacia la infraestructura que luego ejecutará esos modelos, y solo mencioné Kubernetes aquí porque todos lo conocen y es omnipresente. Esta es la arquitectura de muchas aplicaciones de aprendizaje automático.
Queremos poner eso ahí fuera y hacer que realmente comience a hacer cosas por nosotros. Y cuando veo una arquitectura tradicional basada en la nube, tengo una fuente de datos, ya sea estática desde un lago de datos o una base de datos gigante, o tengo datos en streaming que provienen de aplicaciones, clientes, sensores, y luego tengo un pipeline de aprendizaje automático donde realizo todo el entrenamiento y las pruebas. Y luego tengo algún tipo de operaciones de aprendizaje automático, que es una palabra clave muy popular en este momento, y hay muchas herramientas, Kubeflow es una de ellas, funciona muy bien con Kubernetes. Y luego está la distribución hacia la infraestructura que luego ejecutará esos modelos, y solo mencioné Kubernetes aquí porque todos lo conocen y es omnipresente. Esta es la arquitectura de muchas aplicaciones de aprendizaje automático.
4. Machine Learning at the Edge
Y es muy similar a algo similar a un chat GPT. Todo está centralizado en la nube, con mucha potencia en la infraestructura para construir y ejecutar esos modelos, pero en última instancia, todo está en un solo lugar. La siguiente iteración es construir un modelo grande utilizando la infraestructura de alta potencia de la nube, y luego enviar ese modelo y volver a entrenarlo o mejorarlo con datos que provienen de clientes locales o regionales. Así que tomas ese modelo y lo envías al borde y luego lo vuelves a entrenar o lo mejoras con datos locales o regionales, lo que ofrece una experiencia más personalizada. La mayor parte del trabajo se realiza en la nube en ese motor de alta potencia y ahora en el borde puedes utilizar recursos más distintos, más discretos para volver a entrenar y seguir proporcionando ese resultado de manera oportuna a los clientes. El conocimiento jerárquico, la clasificación jerárquica y las recomendaciones son cómo funcionan nuestros cuerpos. A esto lo llamamos aprendizaje en conjunto. Hay refinamientos que deben hacerse en cada nivel para asegurar que ese modelo sea relevante y que tenga un rendimiento suficiente en ese borde, porque los dispositivos que llaman, puede haber cientos de miles, millones o miles de millones de ellos y están llamando y quieren una recomendación, ¿cómo tienes un modelo lo suficientemente localizado y con suficiente rendimiento para ofrecer esos resultados en el borde?
Así que los dispositivos del cliente pueden tener que esperar un tiempo para comunicarse y realizar esa carga de trabajo, tal vez en el caso de, por ejemplo, chat GPT, lo pones en una cola y tienes que esperar tu turno para interactuar con él, porque hay limitaciones en lo que esa arquitectura en la nube puede lograr. La siguiente iteración de eso es construir un modelo grande utilizando la infraestructura de alta potencia de la nube, y luego enviar ese modelo y volver a entrenarlo o mejorarlo con datos que provienen de clientes locales o regionales. Entonces, por ejemplo, puedes tener una tienda, pero piensa en una gran corporación multinacional que vende muchos productos en miles de puntos de venta en todo el mundo. Saben mucho sobre los comportamientos generales de compra de su audiencia. Saben que cuando hace frío, la gente compra chaquetas, cuando hace calor, la gente compra sandalias. Eso es tal vez, uno esperaría, universal, excepto que no lo es porque ciertamente hay regiones donde tener los pies expuestos en unas sandalias se considera grosero y por lo tanto no vendemos tantas sandalias. Entonces, un modelo de aprendizaje automático que se entrenó en el conjunto de datos global tal vez no sería la mejor fuente de recomendaciones para una población en un área donde intervienen factores culturales, climáticos u otros, pero no tienen acceso a eso cuando están construyendo ese modelo central. Así que tomas ese modelo y lo envías al borde y luego lo vuelves a entrenar o lo mejoras con datos locales o regionales, lo que ofrece una experiencia más personalizada. La mayor parte del trabajo se realiza en la nube en ese motor de alta potencia y ahora en el borde puedes utilizar recursos más distintos, más discretos para volver a entrenar y seguir proporcionando, ya sabes, ese resultado de manera oportuna a los clientes. Pero podríamos ampliar esto aún más porque, nuevamente, el conocimiento, al igual que el cerebro humano, es un proceso jerárquico. El cerebro humano captará una imagen a través de tus ojos. Inmediatamente intentará clasificar la forma. Veo un contorno de la oscuridad si estoy en la jungla y la forma parece ser un tigre. Sin embargo, solo veo el perfil de ese tigre, la silueta. Lo que el cerebro humano hará es mirar ese borde o los bordes de ese perfil. Rotará ese perfil y verá si puede clasificar, si alguna vez ha visto esa forma, esa silueta antes, entonces imaginará, imaginarás el sonido como una entrada. ¿Hay lo que consideraría un rugido de un tigre? ¿Se está moviendo de una manera que tradicionalmente asocio con un tigre? ¿Se está acercando a mí? A medida que comienzo a hacer esas clasificaciones, lo interesante del cerebro humano a medida que pasa por este proceso es que hay muchos niveles donde puede captar diferentes datos sensoriales, pero cualquiera de ellos puede desencadenar la reacción química que dice correr o alcanzar esa arma contra el árbol o hacer un ruido fuerte o rendirse porque todo ha terminado. El conocimiento jerárquico, la clasificación jerárquica y las recomendaciones son cómo funcionan nuestros cuerpos. Si esto en la pantalla es una especie de modelo basado en el borde, de dos niveles, puedes imaginar que una solución iterativa puede agregar capas y capas de conocimiento sobre un modelo que puede generarse de forma centralizada y luego distribuirse y seguir refinándose a medida que se acerca al borde. A esto lo llamamos aprendizaje en conjunto. Cuando hablamos del flujo de entrenamiento de un modelo en la nube, es más eficiente decir usar un TensorFlow escrito en Python. Eso se vuelve más eficiente, pero cuanto más te alejas y menos recursos disponibles y más cerca del borde y tal vez más restrictivo o limitado es el entorno, comienzas a ver muchos lugares donde puedes usar JavaScript para refinar continuamente esos modelos y luego implementarlos, por lo que JavaScript se convierte en una excelente herramienta a medida que te alejas hacia el borde o en las instalaciones o incluso en la ejecución en los clientes, ¿verdad? Entonces puedo entrenar algo usando la cámara de mi teléfono, puedo volver a entrenar ese modelo y de repente puedo decirle que lo que estás mirando es en realidad un tigre. Así que puedo decirle que ese modelo existirá en mi teléfono y cada vez que vea una silueta así, se clasificará como un tigre y todo eso sucederá localmente. Sin embargo, puedes ver que esto implica muchas partes móviles, parece que es sincrónico y puedo simplemente copiar y pegar y, ya sabes, cuando estás creando una presentación de PowerPoint, definitivamente estás copiando y pegando, pero hay refinamientos que deben hacerse en cada nivel para asegurar que ese modelo sea relevante y que tenga un rendimiento suficiente en ese borde, porque los dispositivos que llaman, puede haber cientos de miles, millones o miles de millones de ellos y están llamando y quieren una recomendación, ¿cómo tienes un modelo lo suficientemente localizado y con suficiente rendimiento para ofrecer esos resultados en el borde? Entonces, cuando observamos los sistemas y métodos mediante los cuales implementaríamos una solución como esa, hay muchas consideraciones. El conjunto de herramientas de ML para JavaScript tiene algunas limitaciones en términos de lo que puede realizar y estamos tratando de diseñar este sistema iterativo para aprovechar al máximo el cliente más apropiado siempre que sea posible. En un servidor, debes analizar los recursos del host y la complejidad, como cuántos factores estoy considerando cuando ingreso datos que van a hacer una recomendación o una clasificación. Y luego el volumen de datos, ¿verdad? ¿Cuántos datos estoy utilizando para entrenar mi modelo y probarlo? ¿Y tengo la capacidad de almacenar eso en el borde en un teléfono o en un navegador o acceder fácilmente a él? ¿O estoy aprovechando terabytes de datos en la nube y enviándolos al borde? Y luego, cuando llego al borde, ¿qué es capaz de hacer mi teléfono? ¿Qué es capaz de hacer el navegador? ¿Cuál es ese entorno restringido? ¿Qué significan esas restricciones para mí? Y finalmente, todo se reduce a la experiencia del usuario. ¿Es lo suficientemente rápido? ¿Es lo suficientemente bueno? ¿Es suficientemente alta la precisión? Y a medida que construyo ese modelo en la nube con muchos recursos, ¿qué tan interoperable es?
5. Despliegue de Aprendizaje Automático y HarperDB
Los modelos que generas utilizando el modelo de Python deben pasar por lo que se llama el convertidor TFJS. Considera lo que estás tratando de lograr y qué se puede lograr en el borde. La complejidad puede ser un desafío, especialmente al escalar. HarperDB es una plataforma integrada de aprendizaje automático que simplifica y reduce la complejidad. Combina una base de datos, aplicaciones y lógica de distribución. Al aprovechar HarperDB, puedes manejar el entrenamiento, la distribución y la replicación de modelos. Los clientes pueden acceder a los datos y modelos, y el aprendizaje iterativo permite el entrenamiento y despliegue de modelos localizados en dispositivos de cliente.
¿Qué sucede en el borde? Por ejemplo, TensorFlow. Los modelos que generas utilizando el modelo de Python deben pasar por lo que se llama el convertidor TFJS. Y hay algunas limitaciones en las estructuras de esos modelos. Entonces debes considerar, ¿qué estás tratando de lograr y qué puedes lograr en el borde? Pero luego está la otra naturaleza jerárquica de esto. Y vimos todas esas capas anteriormente. Y hablamos de la complejidad que puede arruinarlo. No sirve de nada si es muy eficiente, pero nadie en el mundo puede mantenerlo. Porque Dios no lo quiera, tengo éxito, necesito escalarlo. Si no puedes controlar todas esas partes móviles, y puedes tener 10, 15, cien partes móviles en una pila de aplicaciones de micro frontends y microservicios, APIs y todas esas cosas, lo cual está bien, pero si quieres estar en cien lugares para estar cerca de todos tus usuarios, bueno, ahora tengo 10,000 partes móviles de las que preocuparme. Obviamente, eso no es divertido, y reduce el costo total de propiedad, obviamente, de mantener un sistema como este.
Entonces consideras el almacenamiento de datos, el volumen en disco, la lógica empresarial, mi flujo de trabajo de entrenamiento, mis operaciones de memoria, mi distribución, la infraestructura y la potencia de procesamiento, y en última instancia, ¿cuál es la carga, cuál es el volumen de aplicaciones de cliente que van a llamar e intentar acceder a esta información? En este punto, solo mencionaré que HarperDB, la empresa para la que trabajo, es una plataforma integrada de aprendizaje automático. Hace muchas cosas, el aprendizaje automático es una de esas cosas, y hemos incorporado todas las piezas que pensamos que serían necesarias para simplificar y reducir esa complejidad para que pudiéramos estar en 100 lugares, y aún así solo tuvieras que preocuparte por 100 cosas. Así que construimos una base de datos con aplicaciones aquí, y lógica de distribución. Entonces eso es la replicación entre nodos de HarperDB. Entonces, si miras la base de datos, eso es el almacenamiento de datos, ¿verdad? Y la aplicación es donde se encuentra tu flujo de trabajo de entrenamiento y tu distribución o replicación de estos modelos se puede manejar simplemente aprovechando la solución existente de HarperDB. Obviamente, no somos la única plataforma de aprendizaje automático, pero usaré esta como ejemplo. Miramos todas las fuentes de datos y las incorporamos en una plataforma como HarperDB. Y luego tienes módulos que puedes usar para entrenar y construir esos modelos. Y luego tienes muchos clientes que pueden acceder a esto directamente. Y en última instancia, muchos datos ingresando, mucho procesamiento para generar modelos en tiempo real. Y finalmente, los clientes que pueden llamar y acceder a esos datos. Entonces, un sistema de aprendizaje automático iterativo en HarperDB combina todas las piezas que teníamos en el gráfico anterior. Y simplemente puedes volver a entrenar modelos dentro de la capa de aplicación y aceptar clientes dentro de esa misma capa de aplicación que te están haciendo preguntas. Obviamente, esos mismos modelos también se pueden implementar en los dispositivos de cliente reales para que también puedan ejecutarse en el borde. Pero lo interesante de una plataforma de aprendizaje automático iterativo es que puedo hacer una pregunta a un nodo que está muy cerca de mí. Pero tal vez ese modelo esté entrenado localmente. Se ha reducido. Está optimizado para una plataforma de borde o de baja potencia. Tal vez esté ejecutándose en el borde en una Raspberry Pi. Si no puedo responder la pregunta, puedo enviar esa pregunta
6. Iterative AI and Model Training
Y puedo marcar preguntas como desconocidas y sin resolver, y luego hacer preguntas más poderosas con un conjunto de datos global. Si la pregunta puede ser respondida, el conocimiento volverá y se puede utilizar como nuevos datos de entrenamiento. Al entrenar sobre preguntas previamente sin respuesta, puedes seguir mejorando el modelo.
más arriba en la cadena. Y puedo marcar esa pregunta como desconocida, sin resolver. Y puedo hacer la siguiente cosa más poderosa con tal vez un conjunto de datos data global que no esté entrenado localmente. Y si puede responderla, genial. Ese conocimiento volverá a través de ese punto de contacto original. Puedo usar esa pregunta ahora respondida pero previamente sin respuesta como un nuevo conjunto de datos de entrenamiento para decir, si ves algo que parece irresoluble, pero sigue un paradigma como este, entonces tal vez ese conocimiento valga la pena. Y tal vez esa podría ser la respuesta o una respuesta análoga a eso. Así que puedes entrenar sobre eso. Y puedes seguir subiendo en la cadena. De hecho, más allá de la nube, por ejemplo, hay reconocimiento fotofacial, hay clasificación humana donde simplemente digo, escucha, todos los modelos que tenemos no pudieron clasificar quién es esta persona. ¿Podrías por favor mirar esto y anotarlo? Y tan pronto como tengamos esos data, podemos volver a entrenar en el nivel superior y luego volver a entrenar en todo el proceso hasta que tengamos un modelo completamente eficiente en el borde que pueda responder preguntas que antes solo se podían responder en niveles superiores. Entonces, cuando aprovechas la computación en el borde, JavaScript es una herramienta increíble porque está disponible y se ejecuta en todas partes. Pero el secreto de la solución es entender que el verdadero poder proviene de modelos grandes que se han hecho para funcionar de manera más efectiva, y usar una biblioteca de machine learning basada en JavaScript para crear modelos generalmente no funciona en conjuntos de datos masivos. Así que siempre elige la herramienta adecuada para la plataforma adecuada en el lugar adecuado. Y en última instancia, esa es la clave para hacer que el machine learning y el AI iterativo sean exitosos en cada plataforma. Muchas gracias. Lo aprecio.
Comments