Control de Movimiento Con LLMs Multimodales

This ad is not shown to multipass and full ticket holders
JSNation US
JSNation US 2025
November 17 - 20, 2025
New York, US & Online
JS stars in the US biggest planetarium
Learn More
In partnership with Focus Reactive
Upcoming event
JSNation US 2025
JSNation US 2025
November 17 - 20, 2025. New York, US & Online
Learn more
Bookmark
Rate this content

¿Qué pasaría si pudieras usar LLMs multimodales para interactuar con sitios web o dispositivos IoT usando control de movimiento?

A medida que los avances en IA multimodal ofrecen nuevas oportunidades para expandir los límites de lo que se puede hacer con esta tecnología, comencé a preguntarme cómo podría aprovecharse desde la perspectiva de la interacción humano-computadora.

En esta charla, te llevaré a través de mi investigación experimentando con la construcción de prototipos controlados por movimiento usando LLMs en JavaScript.

This talk has been presented at JSNation 2025, check out the latest edition of this JavaScript Conference.

Charlie Gerard
Charlie Gerard
39 min
12 Jun, 2025

Comments

Sign in or register to post your comment.
Video Summary and Transcription
La charla profundiza en el control de movimiento con IA multimodal, explorando modelos de TensorFlow.js para el reconocimiento de gestos y mejorando las interacciones del usuario. Discute el aprovechamiento de LLMs para la interacción basada en gestos, investigando Gemiini para el reconocimiento de gestos y controlando estados de luz con funciones de Gemini. La conversación incluye el reconocimiento de gestos basado en cámara web, bases de datos de gestos personalizados y el futuro de la asistencia personalizada de IA con reconocimiento acústico.

1. Introducción al Control de Movimiento con IA Multimodal

Short description:

Bienvenidos a una charla sobre control de movimiento con IA multimodal. El ponente es un ingeniero de investigación senior en CrowdStrike, conocido en línea como DevDevCharlie. Con experiencia en aprendizaje automático, particularmente con TensorFlow.js, el enfoque está en los avances recientes en IA multimodal. El ponente se autodenomina tecnólogo creativo, explorando las posibilidades de JavaScript y la plataforma web.

Gracias. Y bienvenidos a mi charla sobre control de movimiento con IA multimodal. Di una versión más larga de esta charla recientemente en otra conferencia, y una colega mía vio la grabación y dijo, oh, es como un espectáculo de magia. Así que, con suerte, si todo funciona bien, tal vez se sienta como un espectáculo de magia, pero luego también entenderán cómo realmente está todo construido. Así que fui presentado brevemente. Voy a pasar rápidamente por esto. Así que sí, soy un ingeniero de investigación senior en CrowdStrike. Generalmente me conocen como DevDevCharlie en línea. Soy autor, instructor de masterclass. Así que he estado haciendo cosas con aprendizaje automático en la web durante unos ocho años ahora, pero principalmente usando TensorFlow.js antes, y esto va a avanzar hacia los más recientes avances con IA multimodal. En general, supongo que soy un tecnólogo creativo autoproclamado, así que me gusta empujar los límites de lo que se puede hacer con JavaScript y la plataforma web, y a veces trato de usar herramientas para hacer que tal vez haga lo que no fue necesariamente construido para hacer. Y fuera de la tecnología, he estado dedicando una gran parte del año tratando de tener pasatiempos que no estén relacionados con la tecnología. Incluye buceo, correr, senderismo, tocar la batería, aprender alemán, y también obtuve mi licencia de radio a principios de este año. Es un pasatiempo muy específico, así que no sé si alguien aquí sabe lo que es, pero en caso de que lo hagan, mi indicativo es ko6hpr si algún día me escuchan en la radio.

2. Explorando Modelos de TensorFlow.js para Control de Movimiento

Short description:

Discutiendo experimentos previos con modelos de TensorFlow.js como PoseNet y MoveNet para detección de poses. Explorando el uso de datos de puntos clave y construyendo experiencias interactivas con control de movimiento. Aumentando herramientas con detección de movimiento para mejorar las interacciones del usuario.

Pero comencemos hablando de experimentos previos. Así que cuando me presenté, solo hablé sobre TensorFlow.js, y quiero cubrir un poco las cosas que se pueden hacer con esa herramienta, para que luego entiendan un poco por qué también estoy experimentando con esto con IA multimodal. Así que hay algunos modelos diferentes que puedes usar con TensorFlow.js, y uno de ellos es sobre detección de poses. Se llama PoseNet o MoveNet. Hay un segundo también. Y generalmente, obtienes puntos clave. Así que olvídate de las líneas verdes, es como los puntos rojos. Dependiendo del modelo, obtienes una cantidad diferente de puntos clave, y estos puntos clave son datos en bruto, así que son coordenadas, coordenadas x e y relativas a la pantalla.

Y con estos datos que obtienes, puedes construir algo como esto. Así que esto es un clon de un juego de luz roja, luz verde, el juego de un juego de calamar, así que si no has visto esta serie, básicamente, tienes una muñeca, y cuando te mira, se supone que no debes moverte, y cuando la cabeza está girada, se supone que, en este caso, debes correr lo más cerca de la pantalla que puedas. De lo contrario, como, mueres. Básicamente, si te mueves cuando la muñeca te está mirando, mueres. Y quería recrear algo usando PoseNet, y luego empiezas a pensar, bueno, ¿cómo codifico realmente, como, el hecho de que no me estoy moviendo o moviendo?

Así que no vamos a responder esa pregunta en esta charla, pero si quieres pensar en ello más tarde, es bastante interesante. Así que puedes decidir si uso todos los puntos clave en el cuerpo. ¿Me concentro solo en algunos de ellos? ¿Qué significa, como, en términos de lógica y cosas así?

QnA

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
IA y Desarrollo Web: ¿Exageración o Realidad?
JSNation 2023JSNation 2023
24 min
IA y Desarrollo Web: ¿Exageración o Realidad?
Top Content
This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.
El Ascenso del Ingeniero de IA
React Summit US 2023React Summit US 2023
30 min
El Ascenso del Ingeniero de IA
Top Content
The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.
El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy
JSNation US 2024JSNation US 2024
31 min
El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy
AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.
Aplicaciones Web del Futuro con Web AI
JSNation 2024JSNation 2024
32 min
Aplicaciones Web del Futuro con Web AI
Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.
Cobertura de código con IA
TestJS Summit 2023TestJS Summit 2023
8 min
Cobertura de código con IA
Premium
Codium is a generative AI assistant for software development that offers code explanation, test generation, and collaboration features. It can generate tests for a GraphQL API in VS Code, improve code coverage, and even document tests. Codium allows analyzing specific code lines, generating tests based on existing ones, and answering code-related questions. It can also provide suggestions for code improvement, help with code refactoring, and assist with writing commit messages.

Workshops on related topic

IA a demanda: IA sin servidor
DevOps.js Conf 2024DevOps.js Conf 2024
163 min
IA a demanda: IA sin servidor
Top Content
Featured WorkshopFree
Nathan Disidore
Nathan Disidore
En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.
AI para Desarrolladores de React
React Advanced 2024React Advanced 2024
142 min
AI para Desarrolladores de React
Top Content
Featured Workshop
Eve Porcello
Eve Porcello
El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)
Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor
Productivity Conf for Devs and Tech LeadersProductivity Conf for Devs and Tech Leaders
71 min
Webinar gratuito: Construyendo aplicaciones Full Stack con Cursor
Top Content
WorkshopFree
Mike Mikula
Mike Mikula
Para asistir al webinar, por favor regístrate aquí.En este webinar cubriré un proceso repetible sobre cómo iniciar aplicaciones Full Stack en Cursor. Espera entender técnicas como usar GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usar esos en notas para generar listas de verificación que guíen el desarrollo de la aplicación. Profundizaremos más en cómo corregir alucinaciones/errores que ocurren, indicaciones útiles para hacer que tu aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espera poder ejecutar tu propia aplicación Full Stack generada por IA en tu máquina!
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
React Advanced 2023React Advanced 2023
98 min
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
Top Content
Workshop
Richard Moss
Richard Moss
En esta masterclass daremos un recorrido por la IA aplicada desde la perspectiva de los desarrolladores de front end, enfocándonos en las mejores prácticas emergentes cuando se trata de trabajar con LLMs para construir grandes productos. Esta masterclass se basa en los aprendizajes obtenidos al trabajar con la API de OpenAI desde su debut en noviembre pasado para construir un MVP funcional que se convirtió en PowerModeAI (una herramienta de creación de ideas y presentaciones orientada al cliente).
En la masterclass habrá una mezcla de presentación y ejercicios prácticos para cubrir temas que incluyen:
- Fundamentos de GPT- Trampas de los LLMs- Mejores prácticas y técnicas de ingeniería de prompts- Uso efectivo del playground- Instalación y configuración del SDK de OpenAI- Enfoques para trabajar con la API y la gestión de prompts- Implementación de la API para construir una aplicación orientada al cliente potenciada por IA- Ajuste fino y embeddings- Mejores prácticas emergentes en LLMOps
Construyendo Aplicaciones AI para la Web
React Day Berlin 2023React Day Berlin 2023
98 min
Construyendo Aplicaciones AI para la Web
Workshop
Roy Derks
Roy Derks
Hoy en día, cada desarrollador está utilizando LLMs en diferentes formas y figuras. Muchos productos han introducido capacidades AI incorporadas, y en esta masterclass aprenderás cómo construir tu propia aplicación AI. No se necesita experiencia en la construcción de LLMs o en el aprendizaje automático. En cambio, utilizaremos tecnologías web como JavaScript, React y GraphQL que ya conoces y amas.
Construyendo tu Aplicación de IA Generativa
React Summit 2024React Summit 2024
82 min
Construyendo tu Aplicación de IA Generativa
WorkshopFree
Dieter Flick
Dieter Flick
La IA generativa está emocionando a los entusiastas de la tecnología y a las empresas con su vasto potencial. En esta sesión, presentaremos Retrieval Augmented Generation (RAG), un marco que proporciona contexto a los Modelos de Lenguaje Grande (LLMs) sin necesidad de volver a entrenarlos. Te guiaremos paso a paso en la construcción de tu propia aplicación RAG, culminando en un chatbot completamente funcional.
Conceptos Clave: IA Generativa, Retrieval Augmented Generation
Tecnologías: OpenAI, LangChain, AstraDB Vector Store, Streamlit, Langflow