Versión en EspañolES

Control de Movimiento Con LLMs Multimodales

¿Qué pasaría si pudieras usar LLMs multimodales para interactuar con sitios web o dispositivos IoT usando control de movimiento?

A medida que los avances en IA multimodal ofrecen nuevas oportunidades para expandir los límites de lo que se puede hacer con esta tecnología, comencé a preguntarme cómo podría aprovecharse desde la perspectiva de la interacción humano-computadora.

En esta charla, te llevaré a través de mi investigación experimentando con la construcción de prototipos controlados por movimiento usando LLMs en JavaScript.

This talk has been presented at JSNation 2025, check out the latest edition of this JavaScript Conference.

artificial intelligence

Charlie Gerard

39 min

12 Jun, 2025

Comments

Video Summary and Transcription

La charla profundiza en el control de movimiento con IA multimodal, explorando modelos de TensorFlow.js para el reconocimiento de gestos y mejorando las interacciones del usuario. Discute el aprovechamiento de LLMs para la interacción basada en gestos, investigando Gemiini para el reconocimiento de gestos y controlando estados de luz con funciones de Gemini. La conversación incluye el reconocimiento de gestos basado en cámara web, bases de datos de gestos personalizados y el futuro de la asistencia personalizada de IA con reconocimiento acústico.

Available in English: Motion Control With Multimodal LLMs

1. Introducción al Control de Movimiento con IA Multimodal

Short description:

Bienvenidos a una charla sobre control de movimiento con IA multimodal. El ponente es un ingeniero de investigación senior en CrowdStrike, conocido en línea como DevDevCharlie. Con experiencia en aprendizaje automático, particularmente con TensorFlow.js, el enfoque está en los avances recientes en IA multimodal. El ponente se autodenomina tecnólogo creativo, explorando las posibilidades de JavaScript y la plataforma web.

Gracias. Y bienvenidos a mi charla sobre control de movimiento con IA multimodal. Di una versión más larga de esta charla recientemente en otra conferencia, y una colega mía vio la grabación y dijo, oh, es como un espectáculo de magia. Así que, con suerte, si todo funciona bien, tal vez se sienta como un espectáculo de magia, pero luego también entenderán cómo realmente está todo construido. Así que fui presentado brevemente. Voy a pasar rápidamente por esto. Así que sí, soy un ingeniero de investigación senior en CrowdStrike. Generalmente me conocen como DevDevCharlie en línea. Soy autor, instructor de masterclass. Así que he estado haciendo cosas con aprendizaje automático en la web durante unos ocho años ahora, pero principalmente usando TensorFlow.js antes, y esto va a avanzar hacia los más recientes avances con IA multimodal. En general, supongo que soy un tecnólogo creativo autoproclamado, así que me gusta empujar los límites de lo que se puede hacer con JavaScript y la plataforma web, y a veces trato de usar herramientas para hacer que tal vez haga lo que no fue necesariamente construido para hacer. Y fuera de la tecnología, he estado dedicando una gran parte del año tratando de tener pasatiempos que no estén relacionados con la tecnología. Incluye buceo, correr, senderismo, tocar la batería, aprender alemán, y también obtuve mi licencia de radio a principios de este año. Es un pasatiempo muy específico, así que no sé si alguien aquí sabe lo que es, pero en caso de que lo hagan, mi indicativo es ko6hpr si algún día me escuchan en la radio.

2. Explorando Modelos de TensorFlow.js para Control de Movimiento

Short description:

Discutiendo experimentos previos con modelos de TensorFlow.js como PoseNet y MoveNet para detección de poses. Explorando el uso de datos de puntos clave y construyendo experiencias interactivas con control de movimiento. Aumentando herramientas con detección de movimiento para mejorar las interacciones del usuario.

Pero comencemos hablando de experimentos previos. Así que cuando me presenté, solo hablé sobre TensorFlow.js, y quiero cubrir un poco las cosas que se pueden hacer con esa herramienta, para que luego entiendan un poco por qué también estoy experimentando con esto con IA multimodal. Así que hay algunos modelos diferentes que puedes usar con TensorFlow.js, y uno de ellos es sobre detección de poses. Se llama PoseNet o MoveNet. Hay un segundo también. Y generalmente, obtienes puntos clave. Así que olvídate de las líneas verdes, es como los puntos rojos. Dependiendo del modelo, obtienes una cantidad diferente de puntos clave, y estos puntos clave son datos en bruto, así que son coordenadas, coordenadas x e y relativas a la pantalla.

Y con estos datos que obtienes, puedes construir algo como esto. Así que esto es un clon de un juego de luz roja, luz verde, el juego de un juego de calamar, así que si no has visto esta serie, básicamente, tienes una muñeca, y cuando te mira, se supone que no debes moverte, y cuando la cabeza está girada, se supone que, en este caso, debes correr lo más cerca de la pantalla que puedas. De lo contrario, como, mueres. Básicamente, si te mueves cuando la muñeca te está mirando, mueres. Y quería recrear algo usando PoseNet, y luego empiezas a pensar, bueno, ¿cómo codifico realmente, como, el hecho de que no me estoy moviendo o moviendo?

Así que no vamos a responder esa pregunta en esta charla, pero si quieres pensar en ello más tarde, es bastante interesante. Así que puedes decidir si uso todos los puntos clave en el cuerpo. ¿Me concentro solo en algunos de ellos? ¿Qué significa, como, en términos de lógica y cosas así?

3. Enhancing User Interactions with Gesture Control

Short description:

Utilizando gestos de mano para interacciones en VR, explorando el control de movimiento con datos de puntos clave en las manos e integrando la detección de movimiento en herramientas existentes. Experimentando con interacciones basadas en gestos para manipular formas y funcionalidades de zoom. Mejorando la experiencia del usuario con detección de mirada y reimaginando interfaces de usuario con entradas limitadas para interacciones eficientes.

Entonces, en este otro ejemplo, era un clon de Beat Saber, donde originalmente la UI era un repositorio de código abierto que estaba en GitHub, y se suponía que debía estar conectado a un casco usando web VR, y se suponía que podías conectar esta aplicación a joysticks usando JavaScript, pero no tenía un casco VR, y pensé, tengo manos, así que puedo simplemente, como, jugar Beat Saber con mis manos. Así que básicamente usé dos de los puntos clave de PostNet, así que mi muñeca derecha y mi muñeca izquierda, y luego usé estas direcciones o estas coordenadas, las traduje al mundo VR, y pude, como, jugar Beat Saber con mis manos.

Otro modelo que puedes usar es uno que está específicamente alrededor de puntos clave en las manos. Así que mano derecha y mano izquierda, y aquí creo que tienes alrededor de 21 puntos clave, y puedes construir algo como esto. Así que comencé a pensar, bueno, ¿y si pudieras aumentar las herramientas que ya usas pero agregar algún tipo de detección de movimiento también? Así que eso fue interactuar con Figma, así que no es necesariamente que de repente construirás interfaces completas solo con tus dedos, pero ¿y si solo estuvieras aumentando el tipo de cosas que puedes hacer?

En este ejemplo, creo que estaba usando solo, como, un gesto de pellizco para poder arrastrar formas alrededor, y luego aquí en este GIF, es, como, básicamente cuando muevo mis manos así, pero cuando hago, como, un gesto de palma, entonces esto es un zoom, y también tendrías que escribir eso en lógica. Es, como, ¿qué es incluso un gesto de palma frente a, como, un puño o algo así? Y luego mides la distancia entre tus manos y puedes, ya sabes, hacer lo que quieras con eso realmente.

Y finalmente, otro modelo que puedes usar está alrededor de más puntos clave de detección facial. Este tiene más de, creo, 450 puntos clave alrededor de la cabeza, y en lo que me centré específicamente es en construir una herramienta para enfocarse en la detección de mirada. Y con esto, terminas teniendo aún más preguntas, no solo técnicamente cómo construyes esto, sino incluso en términos de interacción humano-computadora y experiencia de usuario. Si solo tienes dos entradas, izquierda o derecha, ¿cómo escribes algo? Y aquí es un poco como reimaginar el teclado también. Así que, ya sabes, si tienes un teclado y quieres seleccionar la última letra, podrías técnicamente, mientras miras a la derecha, seleccionar, ya sabes, ir letra por letra, pero eso tomaría un tiempo.

4. Redefining Coding Interfaces with Minimal Inputs

Short description:

Redefiniendo las interacciones con el teclado para una codificación eficiente con entradas mínimas. Explorando la codificación basada en gestos y mejoras de interfaz con control de movimiento. Abordando desafíos en la definición de gestos para una comprensión consistente y universal.

Entonces, ya sabes, si tienes un teclado y quieres seleccionar la última letra, podrías técnicamente, mientras miras a la derecha, seleccionar, ya sabes, ir letra por letra, pero eso tomaría un tiempo. Entonces podrías repensar el teclado y ver, está bien, si divido el teclado en dos listas de letras, y digamos que quiero tener la, quiero escribir la letra W y resulta que está en la columna derecha, entonces miras rápidamente a la derecha y luego se divide esa columna nuevamente en, y terminas con algo así como una búsqueda binaria y terminas, ya sabes, pudiendo seleccionar una letra que está lejos en el teclado pero más rápido. Y luego la seleccionarías con un parpadeo, por ejemplo. Pero con este mismo concepto, entonces puedes comenzar a pensar, bueno, ¿qué significaría codificar usando solo dos entradas, ya sabes, izquierda o derecha? Y puedes, es como, es un buen ejercicio pensar en nuestras interfaces en la forma en que realmente interactuamos con nuestras herramientas en general. Y de nuevo, no es necesariamente que tendrías que reemplazar completamente la escritura con tus movimientos oculares, pero incluso en términos de pensar en lo que significa codificar, ahora podemos preguntar ya sabes, lo que sea, intenta que el ADN se derrame una buena muestra. Pero antes, estarías, está bien, cuando codificas, solo hay una cierta cantidad de cosas que puedes hacer o solo hay una cierta cantidad de formas de definir una función. Así que tendrías una lista de las cosas disponibles que puedes hacer y luego podrías también tener como una herramienta donde, de nuevo, como el teclado antes, mirarías a los lados de la pantalla para seleccionar lo que quieres hacer. Y luego puedes usar como fragmentos en VS Code especialmente para React donde si quieres crear una función, entonces mirarías al lado donde está la opción de función. Y luego, ya sabes, cuando parpadeas, sería casi como simular que estás haciendo un tab y luego escribirías el componente. Así que esto funciona muy bien. Es como divertido trabajar con estas coordenadas. Pero al mismo tiempo significa que todo lo que estoy haciendo es que yo como ingeniero tengo que definir qué son estos gestos. Así que, por ejemplo, si estás usando la mano y haces un pulgar arriba, es como, bueno, ¿cómo codificas lo que es un pulgar arriba? Si, por ejemplo, estuvieras haciendo como, oh, bueno, si no veo las puntas de mis dedos porque están dobladas y digamos que si el ángulo entre mi pulgar y el resto de mi mano es como, no sé, 90 grados, entonces es un pulgar arriba. Pero luego, ¿qué pasa si un usuario está inclinando su pulgar un poco más? De repente no son 90 grados, aunque sabes que todavía estoy haciendo un pulgar arriba. Así que se vuelve un poco más difícil tener algo que pueda ser compartido por muchas personas.

5. Leveraging LLMs for Gesture-Based Interaction

Short description:

Explorando el uso de LLMs para control de movimiento e interacción basada en gestos, inspirándose en el Proyecto Room E de Jared Ficklin usando sensores Kinect y gestos para controlar dispositivos. Transición de Kinect a soluciones basadas en navegador en JavaScript para simplificar interacciones y mejorar la comprensión de gestos y comandos por parte de la IA.

Entonces comencé a preguntarme, está bien, ¿se pueden usar LLMs para el control de movimiento? Así que sé que cuando piensas en LLMs, piensas en lenguaje, así que texto. Pero digamos que más recientemente estamos hablando de IA multimodal. En realidad, eso no es lo que voy a mostrar. Y así, sí, es como LLMs o LLMs multimodales, IA multimodal. Es como alimentar o aumentar lo que le estás dando al LLM, y estamos comenzando con imágenes. Pero la inspiración para lo que voy a mostrar en esta charla es algo como esto. Se llamaba Proyecto Room E de Jared Ficklin. Todo se remonta a 2013. Así que he querido hacer esto durante 12 años.

Y en este ejemplo aquí, en realidad había un sensor Kinect. Básicamente es como un sensor de profundidad. Y en su ejemplo, él estaba viendo cómo la tecnología podría añadirse a algo así como computación del tamaño de una habitación, y podrías comunicarte con dispositivos, con voz y gestos. Así que en este ejemplo, hay dos luces, y él estaba señalando la luz, y decía, enciende esta luz, y luego enciende esa luz. Y él entendería, basado en gestos y lo que estás diciendo, qué luz encender. Y entendería los comandos encender o apagar. Pero en este ejemplo, de nuevo, está usando un Kinect.

Y creo que ni siquiera venden el Kinect más. Así que quería ver si podíamos hacer cosas con lo que está en el navegador y todo en JavaScript y algo así como similar. Así que con suerte, si las demostraciones salen bien, deberíamos ver que se está acercando a algo que es posible. Pero de nuevo, significa que con suerte también, no hay tanto código involucrado. Y ahora que la gente se está acostumbrando a interactuar con la IA de todos modos, podríamos llegar a un punto donde cosas como esta requerirían tal vez solo una cámara, y el resto, como la IA, entendería lo que estás tratando de hacer, o aprendería sobre tus gestos y la forma en que quieres interactuar con las interfaces en lugar de que como ingeniero, crearías una aplicación y dirías, oh, el único gesto que puedes usar para encender la luz es señalar. ¿Y qué pasa si no quiero señalar?

6. Investigating LLMs for Motion Control Experiences

Short description:

Explorando la integración de LLMs para experiencias de control de movimiento, enfocándose en aprovechar Gemiini para interacciones controladas por gestos de mano e investigando varios enfoques, incluyendo IA multimodal e integración de TensorFlow.js, hacia el logro de un control de movimiento eficiente.

Entonces, sí, mencioné IA multimodal. Hubo algunas charlas sobre IA hoy. Así que probablemente ya lo sepas. Pero rápidamente, es un sistema de aprendizaje automático que puede procesar múltiples tipos de datos, como texto, imágenes y sonido. Así que aquí, porque estamos hablando de gestos y vamos a usar la cámara web, es principalmente imágenes que luego, ya sabes, van a ser una etiqueta que se va a alimentar a un LLM, y aquí es donde entra el LLM y la entrada de texto.

Así que el propósito de esto es investigar cómo o si los LLMs pueden ser aprovechados para crear experiencias de control de movimiento. Y usualmente, cuando hago investigación personal, también me pongo una meta específica porque puedes seguir investigando para siempre y luego, ya sabes, en algún momento, quiero pasar a otra cosa. Así que mi objetivo es controlar un sitio web o un dispositivo IoT con movimientos de mano usando Gemiini. La única razón por la que me estoy enfocando específicamente en Gemiini es porque es gratis, y estoy haciendo esto no como parte de mi trabajo. No me pagan por hacer esto. Así que sería interesante cambiar y ver si usar otros modelos sería más o menos preciso o, ya sabes, tal vez hay diferentes cosas que se pueden hacer.

Pero en esta charla, va a ser específicamente Gemiini. Así que hay algunos enfoques diferentes que puedes tomar o al menos que yo decidí tomar al pasar por esto. Así que primero, estaba pensando, si confiamos solo en IA multimodal, como, ya sabes, primero, intentemos con eso. Así que Gemiini toma capturas de pantalla y devuelve su mejor suposición para el gesto de mano que estoy ejecutando y luego podemos intentar activar cosas. El otro enfoque es como, bueno, si conozco TensorFlow.js, ¿puedo comenzar a confiar en IA multimodal y luego aumentarla con más, como, datos y gestos más detallados de TensorFlow.js?

7. Exploring Gemiini for Gesture Recognition

Short description:

Explorando diferentes enfoques con Gemiini para interacciones basadas en gestos y consideraciones de privacidad al usar imágenes personales para el reconocimiento. Utilizando Gemiini para llamadas de funciones y dependencia de LLM, investigación en curso sobre un sistema de reconocimiento de gestos personalizado y configuración de Gemiini 2.0 Flash experimental para experimentos de control de movimiento.

El otro enfoque es como, bueno, si conozco TensorFlow.js, ¿puedo empezar a confiar en IA multimodal y luego aumentarla con más, como, datos detallados y gestos de TensorFlow.js? Bien. Ese sería, como, ya sabes, el segundo enfoque. Y luego el tercero sería hacer todo, como, DIY o al menos el reconocimiento de gestos donde tomaría capturas de pantalla de la cámara web, las convertiría en incrustaciones de vectores en JavaScript, las guardaría en una base de datos de vectores personalizada y luego usaría Gemiini solo para la llamada de funciones. Entonces, si estás pensando tal vez en la privacidad, cuando estoy dando imágenes de mí mismo a Gemiini, no sé a dónde van. No sé, ya sabes, si se usan para entrenar algo más. Y tal vez no quieras eso. Así que si estás creando tu propio sistema personalizado, aún podrías, quiero decir, aún podrías usar Gemiini, luego cuando la etiqueta de tu gesto se devuelve de tu base de datos de vectores, podrías entonces simplemente confiar en el LLM, como, Gemiini, no tendrías que aumentarlo con imágenes y cosas. Así que divulgación completa, este tercer enfoque, todavía estoy trabajando en él, así que no voy a poder demostrarlo hoy, pero creo que es algo que puede funcionar. Es solo que esta es una investigación en curso. Así que aún quería mencionarlo, que este es uno de los enfoques que estoy intentando. Bien. Detección de gestos con Gemiini. Usé su repositorio inicial, tienen algo llamado Live API, Web Console. Es un repositorio inicial en React que establece el esqueleto de cómo usar IA multimodal usando Gemiini. Nuevamente, mi propósito, o el punto de mi investigación es enfocarme en la parte de control de movimiento, así que no quería construir algo desde cero. Así que si estás interesado, si cualquier otro ejemplo de código que voy a mostrar más tarde lo voy a pasar rápido o no es suficiente, en realidad hay un repositorio inicial del que puedes empezar. Así que mostrando algunos ejemplos. Así que al principio tienes que empezar configurando el modelo. Así que he estado usando Gemiini 2.0 Flash experimental. Es un poco antiguo ahora desde hace creo que dos semanas. Creo que ahora hay uno nuevo que puedes usar y no lo he probado. Me gustaría saber si hace las predicciones mejor o más rápido o algo. Para mis experimentos que voy a mostrarte, este es el que estoy usando. Y luego puedes establecer ciertas configuraciones para que puedas decirle al modelo si quieres tener respuestas en formato de texto o si quieres que te hable. Aquí tengo audio. Así que con suerte, si todo está configurado correctamente, también escucharás a la IA hablarme. Pero la parte más importante es tu mensaje del sistema.

8. Webcam-Based Gesture Recognition with Gemiini

Short description:

Explorando el mensaje del sistema y el reconocimiento de gestos con Gemiini para experimentos basados en cámara web, incluyendo la activación de funcionalidades con una palabra específica, observando la salida del modelo y experimentando con diferentes gestos para el etiquetado.

Pero la parte más importante es tu mensaje del sistema. Así que para mi primer experimento, escribí algo bastante simple. Dije que eres mi asistente útil, mirando solo la mano en la transmisión de la cámara web, haz tu mejor suposición sobre lo que significa el gesto, no pidas información adicional, solo haz tu mejor juicio. Así que vamos a empezar con ese.

Bien. Así que aquí, con suerte, eso debería estar ampliado. Entonces, ¿qué va a pasar? Te voy a decir lo que va a pasar, así que si no funciona, lo sabrás. No podré ocultarlo. Pero en la columna de la izquierda aquí, básicamente va a estar la salida del modelo y deberías ver, así que en el centro voy a tener la cámara web, voy a hacer un gesto frente a la cámara y deberías ver la etiqueta de ese gesto respondida por Gemini. Y también, solo para ser preciso, voy a decir una palabra de activación para iniciar la funcionalidad.

Al final, lo que me encantaría es que funcione sin tener que hablarle o que puedas enviar programáticamente una entrada de inicio, pero encontré que era bastante desordenado cuando estaba haciendo esto. Así que solo voy a decir la palabra ahora, pero podría ser cualquier cosa. Podría decir beep boop o lo que sea. Es solo un comando de inicio. Así que la cámara está encendida. Debería estar todo conectado. Así que ahora, no sé si fue demasiado pequeño o algo, pero dijo pulgar arriba y signo de paz. No voy a mostrar demasiados de ellos, pero luego puedes experimentar siendo como, oh, ¿qué puede Gemini por defecto? No eso. No veas el desorden en mi pantalla. Voy a hacer solo eso. Lo que fue genial aquí es que el único mensaje que dije fue solo mira lo que ves y solo dame una etiqueta.

9. Controlling Light States with Gemini Functions

Short description:

Explorando variaciones de gestos y llamadas a funciones con Gemini para controlar estados de luz a través de declaraciones de funciones definidas e interacciones con API usando bombillas LIFX.

Y hay algunos gestos. Creo que también podría hacer pulgares abajo o cuando hago un alto, entonces vuelve con la etiqueta alto. Así que no he probado con tantos gestos, pero estoy como, está bien, podemos empezar si solo queremos confiar en Gemini, podemos obtener algún tipo de etiquetas. Eso es genial, pero queremos hacer algo con este gesto o este reconocimiento.

Así que ahora estamos pasando a la llamada de funciones porque queremos que algo suceda. Y aquí tenemos que empezar declarando algunas declaraciones de funciones que son esquemas de como la forma en que vas a definir o cómo tu función va a estar configurada. Así que tengo una función aquí. El nombre va a ser toggle light. Estoy configurando algunos parámetros y estoy diciendo que esta función debe tener un parámetro que sea de tipo objeto. Y las propiedades tendrán una propiedad on que será un Boolean y solo estoy describiendo que este Boolean va a ser el estado de la luz como un Boolean y lo hago requerido.

Así que Gemini no debería llamar a esta función sin la propiedad on que debe ser un Boolean. Y luego aquí es como más clásico de front end, pero solo para que sepas que realmente no hay ninguna magia allí. Solo estoy enviando, ya sabes, si el comentario on es verdadero, entonces estoy enviando a la API la cadena on o off. Estoy usando las bombillas LIFX. En casa también tengo las bombillas Philips Hue, pero tienes que conectarlas con un puente a tu router y obviamente no puedo hacer eso si estoy hablando en una conferencia.

10. Interacting with Gemini and WiFi Light Bulbs

Short description:

Explorando bombillas conectadas a WiFi y solicitando a Gemini que alterne la luz basado en gestos sin instrucciones explícitas sobre el estado de la luz.

Así que estos son realmente geniales. Mientras estés en la misma red, todo, así que estoy compartiendo internet desde mi teléfono, funciona. Y tiene como pequeños chips de Wi-Fi y cosas en las bombillas mismas. Así que aquí solo haces ping a la API como lo harías en tu trabajo diario probablemente. Y bien, y una cosa importante también es que tengo que actualizar mi prompt al modelo, ¿verdad? Así que cuando llegué, mi primer prompt solo decía dime el gesto, pero ahora tengo que decir llama a la función toggle light proporcionada. Así que una vez que tengas el gesto, llama a toggle light. Pero no estoy diciendo nada más. Y solo estoy pasando las declaraciones de funciones después.

Así que también quería experimentar. ¿Qué puedo hacer con un prompt muy pequeño? No tengo que escribir cosas súper grandes. Así que veamos si eso funciona. Debería. Este debería. Sé que hay una demo que probablemente va a fallar, pero veremos. Bien, así que lo que voy a hacer, voy a, bien. ¿Debería decirte antes o después? Te lo diré después. Así que bien. Ahora. ¿Lo hizo? Oh, bien. Ahora. ¿Lo hizo? Ahora. Bien. Eso es genial. Estoy realmente sorprendido porque cuando ensayé antes, fue un poco problemático. Así que lo interesante en eso es que no le dije a Gemini qué gesto iba a hacer, y no le dije que el pulgar arriba significa encendido, pulgar abajo significa apagado. Solo dije haz una suposición sobre tu gesto, y luego llama a toggle light. Ni siquiera dije con la propiedad on porque eso está definido en el esquema. Así que lo interesante aquí es que un pulgar arriba es usualmente un gesto positivo. Así que de nuevo, odio hablar de IA en palabras humanas, pero entendí que quise decir que, ya sabes, es un gesto positivo, así que la rueda debería estar encendida. Es un gesto negativo, así que la rueda debería estar apagada.

11. Enabling Multi-Light Control with ID and Position

Short description:

Explorando la configuración para controlar múltiples luces con IDs específicos y posiciones para habilitar el cambio de luz basado en gestos.

Genial. Bien. Hasta ahora todo bien. Pero, ¿qué pasa si tengo múltiples luces? En casa, probablemente no tengas solo una luz. Podrías tener varias. Entonces, bien. ¿Qué necesito hacer entonces si quiero avanzar hacia poder controlar múltiples cosas? Aquí es donde paso a la llamada de funciones multiterm. Lo vi recientemente llamado llamada de funciones composicional. Tiene que ser diferente en algún lugar. No lo sé. Pero si te encuentras con estos términos, eso solo significa llamar a múltiples funciones.

Así que el primer paso que tenemos que dar es en nuestra función toggle light en el esquema, tenemos que agregar un ID de luz, ¿verdad? Porque obviamente para saber cuál vas a poder alternar, va a ser uno u otro. Así que necesitas pasar un ID de luz. Eso va a ser un número. La descripción es la idea de la luz a alternar devuelta por la función get light. Y aquí, tenemos que agregar otro objeto a nuestro esquema. Así que vamos a agregar una función que se llama get light.

Y voy a agregar una propiedad que básicamente se llamará detalles. Y aquí, estoy diciendo que es una cadena, y la descripción que le di es el detalle sobre la luz, usualmente una posición. Y la razón por la que específicamente en mi experimento quería usar una posición es porque no conozco las ideas de mi luz de memoria. Incluso si estuviera hablando con la IA en lugar de hacer gestos, no voy a decir enciende la luz ABC123, ¿verdad? Así que quiero poder decir enciende la luz derecha o enciende la luz izquierda.

12. Custom Light Names and Gestural Control Logic

Short description:

Configuración de nombres personalizados para luces, control gestual y lógica de llamadas a funciones basadas en prompts para interacciones con múltiples luces.

Y si tienes alguna de esas luces en casa, sabes que usualmente cuando las estás configurando en la aplicación, puedes establecer un nombre personalizado. Así que obviamente la luz de la derecha se llama right light, y la luz de la izquierda se llama left light. Así que lo que quiero intentar hacer es señalar en diferentes direcciones. Debería entender la forma en que estoy señalando, ya sea a la izquierda o a la derecha, y luego eso se pasará a la función get light, y filtrará a través de los nombres de mis luces conectadas y luego devolverá el ID y lo pasará a la otra función.

Así que tengo que actualizar el prompt nuevamente porque ahora tengo múltiples luces. Así que estoy diciendo mira qué mano está haciendo un gesto, derecha o izquierda. Probablemente no necesitaba agregar eso, pero por si acaso. Y luego llama a la función get light proporcionada con la posición correcta de la mano. Luego haz tu mejor suposición sobre si el gesto significa luz encendida o apagada y llama a toggle light. Creo que lo interesante al experimentar con esto es que a veces cambias el prompt solo un poco y tienes un resultado totalmente diferente para bien o para mal.

Sí, a veces no es tan bueno. Pero este es el prompt que estoy usando para ese. Así que en términos de lógica de llamada de herramientas, voy a pasar por esto bastante rápido porque puedes mirar el código en el repo.

13. Live API Functions and Directional Light Control

Short description:

Exploración del uso de API en vivo para Gemini, manejo de funciones basado en prompts y desafíos en el reconocimiento direccional durante la demostración de control de luces.

Pero cuando usas la API en vivo para Gemini, tienes diferentes hooks que puedes usar, y en la llamada de herramienta, así que cuando la IA descubre que estás tratando de llamar a diferentes funciones, tenemos dos funciones aquí, get light y toggle light. Aquí va a listar las funciones que se supone que debo o que la IA se supone que debe llamar basado en el prompt que le di. Tengo un array para las partes de respuesta de la función, porque la respuesta de get light va a ser el ID. Voy a tener que pasarlo, va a tener que pasarlo automáticamente a la función toggle light y cosas así. Así que aquí solo recorro las llamadas de función, extraigo el nombre, los argumentos, el ID, simplemente llamo a la función que cree que debería ser la primera basada en el prompt nuevamente, y estoy empujando la respuesta en el array, y luego es como enviar la respuesta de la herramienta. No es necesariamente, no tienes que entender exactamente lo que está pasando aquí, solo tienes que entender que la IA descubrirá por sí misma qué función llamar en qué momento y cómo pasar la respuesta a la otra basada en el esquema que proporcioné. Así que aquí es probablemente donde habrá un problema con esa y explicaré por qué después. Pero la forma en que esta demo debería funcionar es que voy a señalar a la derecha, si tengo suerte, probablemente no, debería encender la luz derecha, si señalo a la izquierda, debería encender la luz izquierda. Probablemente no funcionará porque, extrañamente, el modelo de visión o lo que sea que usen en el fondo no es muy bueno para saber la derecha de la izquierda, lo cual pensé que era un problema que estaba resuelto en la visión por computadora. Pero digamos que si su modelo está más afinado para detectar objetos y no necesariamente partes del cuerpo, eso podría ser la razón, pero veamos qué pasa. Así que si este falla, ya lo sé, así que está bien.

Ahora... Bien. He apagado las luces. Bueno, quiero decir, no quería que se apagaran, pero, está bien. Ahora... He encendido las luces. Pero estaba diciendo encendido. Oh, bueno, está bien. ¿Cómo están las luces ahora? No, no, no, no, no, está bien. Así que la cosa es, creo que estaba, ni siquiera recuerdo con qué dedo estaba señalando. Pero encendió una luz. Así que no sé si descubrió derecha o izquierda, pero hizo algo. Pero de nuevo, aquí es donde es realmente interesante que si estás tratando de, así que si solo hablo con la IA, digamos, déjame intentar algo. Enciende la luz izquierda. No. Bien. Solo voy a seguir con eso. Así que déjame decir eso. Bien.

14. Integrating TensorFlow.js for Color Control

Short description:

Añadiendo TensorFlow.js a Gemiini para el control de color basado en gestos de la mano.

Este no es el más interesante. Así que de nuevo, tal vez más adelante o si en algún momento podemos, ya sabes, creo que en algún momento yo estaba pensando, oh, aquí es donde podría aumentarlo con TensorFlow.js, donde TensorFlow sabría la derecha de la izquierda y luego podría aumentarlo. Pero aquí es donde voy a pasar a otra cosa. Así que vamos a añadir TensorFlow.js a Gemiini.

Así que aquí no necesariamente, estoy construyendo cada demo una sobre otra. Así que todavía tenemos nuestra función get light, todavía tenemos nuestro toggle light, pero quiero establecer el color. Así que quiero usar datos de grano fino para poder rotar mis manos y cambiar el color de la luz. Así que solo estoy diciendo, solo estoy añadiendo a mi prompt. Luego, si el usuario está haciendo un gesto de palma, de nuevo, no estoy describiendo lo que es un gesto de palma. Dije que si ves una palma, llama a la función set color proporcionada.

No voy a pasar por lo que es la función set color porque TensorFlow.js solo detecta las manos y me gusta lo que estoy haciendo es calcular el ángulo entre la punta de mi pulgar y la punta de mi meñique. Y si imaginas como una línea horizontal mientras me muevo en grados, básicamente, estoy cambiando el tono de la bombilla. Quiero decir, eso es lo que se supone que debe pasar. Bien, veamos si eso funciona. Así que este es realmente emocionante. Por eso quería que funcionara.

15. Color Changes with Hand Gestures

Short description:

Explorando cambios de color en luces basados en gestos de la mano usando JavaScript con éxito y mejoras potenciales.

Así que solo para explicar antes de hacerlo, la cosa es que podría tener que OK, quiero ver si las cosas están sucediendo. Así que podría tener que hacer eso. ¿Lo hago? Sí. OK. Así que lo que quiero hacer es construir sobre la demo anterior. Así que quiero apuntar a una luz. Si tengo suerte, encenderá la luz correcta. Si no, creo que aún puedo continuar. Luego voy a hacer la palma. Y mientras estoy rotando mi mano, debería cambiar el color. Solo voy a abrir la consola porque si no funciona, lo sabré. Y porque es JavaScript, solo actualizaré.

OK. ¿Ahora? OK, he activado la luz a tu derecha. ¿Ahora? He establecido el color de la luz a tu derecha en rojo. ¡Woo! ¡Woo! ¡Oh, sí! OK, estoy tan feliz. Muy bien, genial. ¡Así que funcionó! No debería estar tan sorprendido. Pero porque es generativo, tampoco sabes si va a funcionar o no. Así que eso fue genial. Así que significa que puedes confiar en lo que Gemini te da de fábrica, y luego puedes también personalizar haciendo interfaces más interesantes.

Así que estaba luchando un poco. No sé si viste, estaba un poco lento. No suele ser tan lento. Así que no sé si es solo que necesito actualizar el modelo o tal vez mi conexión no es buena. No estoy seguro. Estoy fuera de tiempo, así que voy a apresurarme un poco. Así que no voy a hacer una demo de esa, pero quiero hablar sobre cómo lo haría necesariamente. Así que lo expliqué un poco al principio, pero he estado usando una plataforma llamada DataStax, y podrías tener, de nuevo, porque puedes ver el stream desde la webcam en el navegador, puedes luego tomar capturas de pantalla, transformarlas en incrustaciones vectoriales. Eso se almacenará luego en una base de datos vectorial de DataStax con una descripción de mi gesto.

16. Bases de Datos de Gestos Personalizados e Interfaces Autónomas

Short description:

Experimentando con bases de datos de gestos personalizadas para privacidad y reconocimiento de gestos personalizados con Gemini, apuntando a interfaces autónomas e intuitivas.

Así que estoy como creando mi propia base de datos personalizada de gestos, pero no significa que solo funcionaría en mí. Significa que, ya sabes, si alguien más está usando mi aplicación y de alguna manera, ya sabes, transformando en vectores, hay una similitud entre un gesto que ya tengo guardado. Entonces podrías devolver la descripción de ese gesto y luego alimentarlo a Gemini. Así que basado en la descripción que obtienes, haz algo. Y la razón por la que quería experimentar con esto es, de nuevo, con Google, no sé a dónde va mi información. No sé si la guardan. No sé si no la guardan. También obtienes, sé que es muy difícil recrear una imagen a partir de incrustaciones vectoriales, así que, por privacidad, me siento un poco mejor si termino instalando eso en mi casa y solo me observa todo el tiempo. Preferiría saber que estoy enviando cosas a mi base de datos personalizada en lugar de a Google. Y también, con el Gemini, si estoy haciendo un gesto que Gemini, por defecto, no reconoce, digamos que no lo reconoce. Creo que no reconoció, como, el signo de Star Trek o lo que sea. Y significa que puedo entrenarlo. Puedo decirle a Gemini, oye, cuando hago esto, apaga las luces. Si actualizo, entonces lo pierdo porque no necesariamente guarda tu muestra, al menos no la versión gratuita. Así que, si lo haces, como, si haces esto pero lo sirves en tu base de datos personalizada, entonces siempre estará allí.

De todos modos, estoy llegando al final de esta charla, así que añadí algunos recursos, pero si tienes alguna pregunta y quieres algún tipo de enlace, puedes contactarme en Blue Sky, probablemente más que en Twitter. Y estoy planeando en algún momento escribir una publicación de blog sobre esto, pero porque está en curso y estará allí, pero si estás interesado, mi sitio web es challenge.jar.dev. Así que ya existe investigación de personas que son realmente investigadores que han publicado artículos sobre esto. Y de lo contrario, solo quería como, terminar de nuevo en la inspiración original. Lo que me encanta de experimentar con esto es que siento que se está acercando a algo que realmente podría estar sucediendo solo con una laptop. Y significa que realmente quiero que la gente en algún momento pueda, no sé, encender estas luces, y luego en casa, solo hablen con algún tipo de, no sé, cualquier dispositivo de IA que tengan, y puedan personalizar la forma en que quieren experimentar con cosas. Y al final, podríamos tener interfaces donde simplemente estás como, boom, boom, boom, boom. Y simplemente aprende lo que haces. Y tal vez ni siquiera tengas que hablar con él. Simplemente aprende cómo trabajas. Y no tienes que comprar un Kinect. No tienes que tener, como, esta configuración realmente grande. Pero significa que ya hace 13 años, la gente estaba pensando en esto. Todavía estoy pensando en esto. Y con suerte, tal vez en algún momento, realmente pueda estar integrado en el navegador, porque ahora la API de Gemini está en el navegador también.

Personalized Interfaces and Motion Control

Short description:

Explorando interfaces con posibilidades de control de movimiento para interacciones personalizadas y fomentando la experimentación con herramientas de IA.

Y podríamos estar esperando, aquí mostré con luces, pero también funciona con interfaces. Así que estaba pensando, oh, cuando hago esto, refrescar. Cuando hago esto, cambiar pestañas. Y si termina siendo entonces en el navegador de forma nativa, entonces la gente puede construir sus propias interfaces. De todos modos, no sé cuánto tiempo tengo, pero definitivamente estoy fuera de tiempo. Así que muchas gracias por escuchar. Y con suerte, también querrás experimentar con cosas así. Tenemos una persona muy joven que probablemente se una a nosotros en la transmisión en vivo, porque no he visto muchos niños en la sala hoy. Entonces, como un niño de 10 años, ¿cómo sugieres que empiece a aprender sobre este tipo de cosas? Quiero decir, bueno, depende. Depende si la persona ya es programadora o no. Hm. Hay muchas maneras de hacer detección de movimiento. La cosa con la IA multimodal aquí es que puedes ir al estudio de Gemini AI ahora mismo, y es una interfaz que se ve algo similar a eso. Y puedes hablar con la IA y decir, como, ¿qué ves? ¿Qué ves? Y luego puedes experimentar con eso. Y si la persona sabe cómo escribir código, entonces puedes, ya sabes, obtener una respuesta de Gemini y decidir no necesariamente encender luces si tienes 10 años y apenas estás comenzando. Pero podría ser, como, no sé, hacer clic en un botón en una interfaz o algo así. Así que realmente, no sé. No sé nada sobre esta persona, así que no sé si saben cómo programar o no. Pero hay muchas herramientas diferentes. Así que, sí. Lo siento. Bueno, quiero decir, la primera respuesta es unirse aparentemente a la transmisión en vivo de JS Nation y hacer estas preguntas. Muy genial. De acuerdo. Siempre tengo muchas dificultades, ya sabes, para decidir cuál hacer primero. Así que simplemente iré por la más votada. ¿El código es de código abierto? ¿O puedes repasar la función set caller de nuevo, por favor? Así que el código aún no es de código abierto, porque es un gran lío. Si lo estuviera haciendo de código abierto ahora mismo, probablemente sería, sí, un poco difícil para la gente incluso saber qué está pasando. Porque me estoy perdiendo en él. Pero en algún momento lo haré.

TensorFlow.js Set Caller Function and Gemini Nano

Short description:

Discutiendo la función set caller en TensorFlow.js para la detección de gestos de mano y manipulación de color, explorando experimentos potenciales con modelos locales y el desconocido Gemini Nano.

Querré hacerlo. Así que creo que cuando termine la última demostración sobre hacerlo tú mismo, quiero hacerlo de código abierto, porque quiero que la gente vea. Pero creo que el resto de la pregunta, está bien, ¿puedo repasar la función set caller? Entonces, lo que hace la función set caller, en el mismo código importas los modelos de TensorFlow.js. Y hay una función que se llama estimate hands que activa la detección de manos. Y a partir de eso, obtienes un array de puntos clave. Y lo que filtré para extraer solo el punto clave que era la punta del pulgar y la punta del índice. Así que obtengo coordenadas x e y todo el tiempo sobre la posición de estos dos puntos en la pantalla. Y luego solo estoy haciendo algún tipo de matemáticas, solo un poco. Estoy calculando el ángulo entre la línea horizontal imaginaria, el ángulo aquí, para que cuando empiece con mi mano aquí, básicamente el ángulo sea cero, porque no estoy en un ángulo. Y luego, a medida que giro aquí, básicamente calculo el ángulo aquí. Y estoy aplicando eso a un valor de tono para cambiar el color. Así que... Sí.

De acuerdo. Genial. Gracias. ¿Intentaste los mismos experimentos con modelos locales? No lo he hecho. Así que en este momento realmente solo experimenté con los modelos disponibles de Gemini. Así que no he probado con nada más. Me daría curiosidad. En algún momento tal vez lo haré, para, como, conocer la diferencia. Y me daría curiosidad saber si otros modelos, como, reconocen más o menos gestos por defecto. Pero aún no lo he hecho. No. De acuerdo.

Tal vez un poco del mismo estilo, ¿es posible usar Gemini Nano en su lugar? No tengo idea. Para ser honesto, ni siquiera sé qué es Gemini Nano. Así que ahora tengo que ir y aprender. Sí. Quizás.

Mejora del Reconocimiento Facial y Gestos Personalizados

Short description:

Discutiendo Gemini Nano, mejorando el reconocimiento facial para gestos etiquetados y creando gestos personalizados como el zoom de cámara controlado por cejas.

O las personas se unirán a ti en tu lugar de preguntas y respuestas más tarde. Claro. Alguien más puede decirme qué es Gemini Nano. O también lo han escuchado. Muy genial.

Como, ¿podemos mejorar el reconocimiento facial para extraer más gestos etiquetados? ¡Oh! Entonces significa que si tú... Quiero decir, no sé quién tiene la pregunta. Pero es, como, ¿puedes reconocer, como, una sonrisa o un ceño fruncido? Sí. Así que en algún momento construí una demostración tonta que alguien me estaba preguntando, como, oh, ¿puedes hacer algo donde, para, como, streamers, donde cuando levantas la ceja, hace zoom en la cámara? Sabes, cuando haces un gesto tonto y sería como zzz.

Y luego cuando levantas la otra ceja haría zoom hacia afuera. Y así, usando puntos clave de fila de diferentes lugares sobre la ceja, calculo el ángulo de mi, como, cuando levantas la ceja así. Y luego lo aplicas a, como, zoom para que, sabes, puedas tener un buen efecto donde miras a la cámara y luego levantas la ceja, es como zzz, como, de todos modos. Entonces puedes, quiero decir, obtienes puntos clave de fila. Así que decides cómo quieres detectar diferentes gestos. Sí. Podrías hacer un parpadeo personalizado con el ojo derecho o el ojo izquierdo, o ambos ojos, o una mueca, o, sí. Tú decides eso. Así que. Tú decides. Sí.

Consideraciones de Código Abierto y Desafíos de Latencia

Short description:

Discutiendo proyectos de código abierto, problemas con la latencia en la detección de gestos y preocupaciones sobre el rendimiento de los modelos de IA generativa.

Muy genial. Mencionaste, o la pregunta anterior fue si planeas hacer open source algo de esto. Y luego está, por supuesto, la pregunta también, si estás, si estarías buscando algún contribuyente y tal vez específicamente en qué áreas buscarías contribuciones. Así que usualmente no lo hago. No porque no me gusten las personas. Pero es solo que lo hago de manera muy esporádica. Así que es solo cuando tengo tiempo, de nuevo, ese no es mi trabajo. Así que es difícil tener un contribuyente si, sabes, alguien quiere construir algo específico. Así que lo que estoy haciendo ahora mismo no es open source. Pero todas las otras cosas que mostré al principio de la charla con TensorFlow.js, estas son todas open source. Así que si estamos hablando de contribuir en términos de abrir un PR o algo, seguro. La mayoría de las veces me pierdo las notificaciones. Pero es solo difícil con la forma en que estoy, como, porque no es mi trabajo, solo lo hago así que no tan a menudo que probablemente sería aburrido si alguien quisiera contribuir conmigo. Así que, sí. Quiero decir, siento que ese es el caso para la mayoría de los mantenedores. Pero sí. Gracias por ser considerado.

Muy bien. ¿Cuáles son las mejores maneras de reducir la latencia entre la detección de gestos y la acción? Así que si lo haces con TensorFlow.js, no es realmente algo que controles. Es como 60 fotogramas por segundo con los puntos clave. Para la IA generativa, para eso, no lo sé. Porque donde realmente fue un poco lento hoy, en realidad usualmente no es realmente tan lento. Así que de nuevo, no sé si tiene que ver con tal vez muchas personas están, como, saturando ese modelo ahora mismo. Sabes, a veces cuando ChadGBT es como, oh, estamos un poco lentos porque todos nos están usando o algo. Al menos la versión gratuita. Así que no sé si hoy fue una conexión o si simplemente, como, tuvo dificultades de alguna manera. Creo que aquí es donde las partes de la IA generativa donde no estoy muy seguro de lo que está pasando. Así que supongo o espero que a medida que los modelos mejoren, o tal vez tendría que pagar por una versión que sea más eficiente, sería mejor. Porque en este momento, si hago eso y toma unos segundos, sabes, no lo aplicas a algo que sea sensible al tiempo. Creo que todavía estamos como en la era temprana.

Future Interface Speed and Acoustic Recognition

Short description:

Discutiendo la velocidad de los futuros avances en interfaces, casos de uso en el mundo real con reconocimiento de actividad acústica y aprendizaje personalizado de IA a partir de sonidos y actividades.

Y me encantaría saber en unos años si es, como, realmente tan digamos tan rápido como obtienes cosas con AngularJS. Si realmente fuera... Sí, si estuvieras obteniendo tus etiquetas y todo mucho más rápido, entonces realmente podrías construir interfaces geniales. Así que, sí. Muy bien.

Hagamos una última pregunta. Que comienza con un cumplido. Muy buena presentación. Presentación realmente encantadora. ¿Hay algún caso de uso en el mundo real que te gustaría ver? Sí. Quiero decir, porque he estado... Así que mis dos inspiraciones fueron la que mostré. Así que la sala E, donde... Y había otro artículo que no necesariamente usaba, como, video o gestos. Pero se basaba en un sonido. Era un proyecto de Apple llamado Listen Learner, donde era un dispositivo personalizado que estaba escuchando actividades a tu alrededor. Y estaba usando lo que se llama reconocimiento de actividad acústica.

Así que todo lo que haces hace un cierto sonido. Como, cuando abro esta botella, rompí la cosa y reconocí el sonido. O cuando abres la puerta de tu nevera, reconoces ese sonido. O cuando tu cafetera termina, reconoces ese sonido. Y puedes... En ese proyecto, la persona estaba solo en su apartamento, como, cortando cosas en una pizarra o lo que sea.

Personalized AI Assistance and Future Systems

Short description:

Discutiendo el futuro de los sistemas personalizados basados en el reconocimiento acústico y de actividades, aprendiendo comportamientos de los usuarios sin entrenamiento explícito, y el deseo de que la IA ayude proactivamente en las tareas diarias.

Y luego agruparía por sí mismo sonidos similares. Y significa que entonces podrías tener un sistema que sabe lo que estás haciendo sin tener que entrenarlo con millones de muestras. {{^}}Y sería muy personalizado, porque se basa en lo que está sucediendo a tu alrededor. Y si mezclas ese reconocimiento acústico o reconocimiento de actividades con también el reconocimiento de movimientos, entonces podrías tener potencialmente sistemas domésticos que realmente aprendan cómo te comportas y tal vez sabrían de antemano lo que estás tratando de hacer.

Aprendería de tus hábitos de, como, a qué hora ciertos sonidos suelen ocurrir y cuál es el siguiente sonido usualmente o el sonido anterior y aprendería tus gestos sin que tengas que decir nada. Y creo que, como, quiero vivir en un mundo donde eso suceda. Siento que incluso ahora estaba pensando con la IA que tenemos ahora, no tenemos algo tan simple como, incluso quiero algo que mire mi calendario y vea que tengo una entrevista la próxima semana y quiero que la IA por sí misma sepa, como, ¿quieres que te ayude con preguntas de entrevista?

O, como, puedo ver que tienes algo próximamente la próxima semana. Y ni siquiera hace eso. O tal vez no estoy, como, usando una herramienta que haga eso, pero es como quiero que la IA aprenda sobre mí sin que tenga que, como, decir nada. Tal vez en algún momento lleguemos allí, pero siento que definitivamente no estamos allí. Cuanto más experimenté con esto, más me di cuenta de que estamos tan lejos de la AGI. Como si hago esto y piensa que es mi mano izquierda y luego ni siquiera enciende la luz pero me dice que encendí la luz, es como, no, no lo hiciste.

Available in other languages:

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript

JSNation 2023

21 min

Construyendo un Asistente AI Activado por Voz con Javascript

Top Content

Tejas Kumar

Author of the "Fluent React" bestselling book, software engineer with 23 years of experience, and host of the developer-loved ConTejas Code podcast.

This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.

artificial intelligence case study

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

JSNation US 2024

31 min

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

Top Content

Addy Osmani

Engineering Leader Working on Google Chrome

AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.

artificial intelligence

El Ascenso del Ingeniero de IA

React Summit US 2023

30 min

El Ascenso del Ingeniero de IA

Top Content

Shawn Swyx Wang

Latent.Space Editor & Smol.ai Founder

The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.

artificial intelligence web development future of development builders and founders

IA y Desarrollo Web: ¿Exageración o Realidad?

JSNation 2023

24 min

IA y Desarrollo Web: ¿Exageración o Realidad?

Top Content

Wes Bos

Full Stack Developer, Speaker & Teacher, Co-host of Syntax.fm podcast.

This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.

artificial intelligence productivity

Aplicaciones Web del Futuro con Web AI

JSNation 2024

32 min

Aplicaciones Web del Futuro con Web AI

Jason Mayes

Web AI Lead at Google.

Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.

artificial intelligence

El Ingeniero de Software Nativo de AI

JSNation US 2025

35 min

El Ingeniero de Software Nativo de AI

Addy Osmani

Engineering Leader Working on Google Chrome

Software engineering is evolving with AI and VIBE coding reshaping work, emphasizing collaboration and embracing AI. The future roadmap includes transitioning from augmented to AI-first and eventually AI-native developer experiences. AI integration in coding practices shapes a collaborative future, with tools evolving for startups and enterprises. AI tools aid in design, coding, and testing, offering varied assistance. Context relevance, spec-driven development, human review, and AI implementation challenges are key focus areas. AI boosts productivity but faces verification challenges, necessitating human oversight. The impact of AI on code reviews, talent development, and problem-solving evolution in coding practices is significant.

artificial intelligence

Workshops on related topic

IA a demanda: IA sin servidor

DevOps.js Conf 2024

163 min

IA a demanda: IA sin servidor

Top Content

Featured WorkshopFree

Nathan Disidore

En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.

architecture artificial intelligence serverless

AI para Desarrolladores de React

React Advanced 2024

142 min

AI para Desarrolladores de React

Top Content

Featured Workshop

Eve Porcello

El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)

react artificial intelligence next.js

Building Full Stack Apps With Cursor

JSNation 2025

46 min

Building Full Stack Apps With Cursor

Featured Workshop

Mike Mikula

En esta masterclass cubriré un proceso repetible sobre cómo iniciar aplicaciones full stack en Cursor. Espere comprender técnicas como el uso de GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usarlos en notas para generar listas de verificación que guíen el desarrollo de aplicaciones. Profundizaremos más en cómo solucionar alucinaciones/errores que ocurren, indicaciones útiles para hacer que su aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espere poder ejecutar su propia aplicación full stack generada por IA en su máquina!
Por favor, encuentre las preguntas frecuentes aquí

artificial intelligence

How to 9,2x Your Development Speed with Cline

JSNation 2025

64 min

How to 9,2x Your Development Speed with Cline

Featured Workshop

Nik Pash

La forma en que escribimos código está cambiando fundamentalmente. En lugar de quedar atrapado en bucles anidados y detalles de implementación, imagine enfocarse puramente en la arquitectura y la resolución creativa de problemas mientras su programador de pares de IA maneja la ejecución. En esta masterclass práctica, te mostraré cómo aprovechar Cline (un agente de codificación autónomo que recientemente alcanzó 1M de descargas en VS Code) para acelerar drásticamente tu flujo de trabajo de desarrollo a través de una práctica que llamamos "vibe coding" - donde los humanos se enfocan en el pensamiento de alto nivel y la IA maneja la implementación.Descubrirás:Los principios fundamentales del "vibe coding" y cómo se diferencia del desarrollo tradicionalCómo diseñar soluciones a un alto nivel y hacer que la IA las implemente con precisiónDemostración en vivo: Construcción de un sistema de almacenamiento en caché de grado de producción en Go que nos ahorró $500/semanaTécnicas para usar IA para entender bases de código complejas en minutos en lugar de horasMejores prácticas para solicitar a los agentes de IA que obtengan exactamente el código que deseasErrores comunes a evitar al trabajar con asistentes de codificación de IAEstrategias para usar IA para acelerar el aprendizaje y reducir la dependencia de ingenieros seniorCómo combinar efectivamente la creatividad humana con las capacidades de implementación de IAYa sea que seas un desarrollador junior que busca acelerar tu aprendizaje o un ingeniero senior que desea optimizar tu flujo de trabajo, saldrás de esta masterclass con experiencia práctica en desarrollo asistido por IA que puedes aplicar inmediatamente a tus proyectos. A través de demostraciones de codificación en vivo y ejercicios prácticos, aprenderás cómo aprovechar Cline para escribir mejor código más rápido mientras te enfocas en lo que importa: resolver problemas reales.

artificial intelligence

Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor

Productivity Conf for Devs and Tech Leaders

71 min

Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor

Top Content

WorkshopFree

Mike Mikula

Para asistir al webinar, por favor regístrate aquí.En este webinar cubriré un proceso repetible sobre cómo iniciar aplicaciones Full Stack en Cursor. Espera entender técnicas como usar GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usar esos en notas para generar listas de verificación que guíen el desarrollo de la aplicación. Profundizaremos más en cómo corregir alucinaciones/errores que ocurren, indicaciones útiles para hacer que tu aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espera poder ejecutar tu propia aplicación Full Stack generada por IA en tu máquina!

artificial intelligence fullstack

Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React

React Advanced 2023

98 min

Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React

Top Content

Workshop

Richard Moss

En esta masterclass daremos un recorrido por la IA aplicada desde la perspectiva de los desarrolladores de front end, enfocándonos en las mejores prácticas emergentes cuando se trata de trabajar con LLMs para construir grandes productos. Esta masterclass se basa en los aprendizajes obtenidos al trabajar con la API de OpenAI desde su debut en noviembre pasado para construir un MVP funcional que se convirtió en PowerModeAI (una herramienta de creación de ideas y presentaciones orientada al cliente).
En la masterclass habrá una mezcla de presentación y ejercicios prácticos para cubrir temas que incluyen:
- Fundamentos de GPT- Trampas de los LLMs- Mejores prácticas y técnicas de ingeniería de prompts- Uso efectivo del playground- Instalación y configuración del SDK de OpenAI- Enfoques para trabajar con la API y la gestión de prompts- Implementación de la API para construir una aplicación orientada al cliente potenciada por IA- Ajuste fino y embeddings- Mejores prácticas emergentes en LLMOps

openai artificial intelligence react and ai

Control de Movimiento Con LLMs Multimodales

Comments

1. Introducción al Control de Movimiento con IA Multimodal

2. Explorando Modelos de TensorFlow.js para Control de Movimiento

3. Enhancing User Interactions with Gesture Control

4. Redefining Coding Interfaces with Minimal Inputs

5. Leveraging LLMs for Gesture-Based Interaction

6. Investigating LLMs for Motion Control Experiences

7. Exploring Gemiini for Gesture Recognition

8. Webcam-Based Gesture Recognition with Gemiini

9. Controlling Light States with Gemini Functions

10. Interacting with Gemini and WiFi Light Bulbs

11. Enabling Multi-Light Control with ID and Position

12. Custom Light Names and Gestural Control Logic

13. Live API Functions and Directional Light Control

14. Integrating TensorFlow.js for Color Control

15. Color Changes with Hand Gestures

16. Bases de Datos de Gestos Personalizados e Interfaces Autónomas

QnA

Personalized Interfaces and Motion Control

TensorFlow.js Set Caller Function and Gemini Nano

Mejora del Reconocimiento Facial y Gestos Personalizados

Consideraciones de Código Abierto y Desafíos de Latencia

Future Interface Speed and Acoustic Recognition

Personalized AI Assistance and Future Systems

Available in other languages:

Check out more articles and videos

Workshops on related topic

Subscribe to the top JS conferences