¡Vamos Barbie, Vamos a la Fiesta: Usando IA para la Mezcla de Música

Rate this content
Bookmark

Como DJ, utilizo muchas técnicas para mezclar y crear nuevos sonidos que hagan que la gente levante las manos en el aire. En esta charla describiré algoritmos de IA basados en Redes Neuronales que tienen la capacidad de descomponer la música en elementos. Explicaré cómo nuestro cerebro diferencia entre docenas de señales de sonido diferentes cuando escuchamos música. ¿Podemos instruir a la IA para que haga lo mismo?

La parte interesante: DJing en vivo en el escenario utilizando algoritmos de IA.

This talk has been presented at JSNation 2024, check out the latest edition of this JavaScript Conference.

FAQ

El presentador ha trabajado como DJ mezclando sonidos de Dark 80s, synthwave y techno. Profesionalmente, ha estado trabajando en Wix durante los últimos siete años en el grupo de ciencia de datos, construyendo tuberías de aprendizaje automático para científicos de datos en toda la organización.

El aprendizaje profundo ha revolucionado el arte de la mezcla de música al permitir la separación de fuentes de las pistas, lo que facilita la manipulación creativa de las mismas y mejora la calidad de las mezclas.

El presentador utiliza un software de DJ que recientemente incorporó tecnología para separar las fuentes de las pistas, lo que permite a los DJs ser más creativos en sus mezclas.

Uno de los principales problemas es la incongruencia entre cómo suena la mezcla en los auriculares del DJ y cómo se percibe en la pista de baile, lo que puede desequilibrar el ambiente y ser muy estresante para el DJ.

El aprendizaje profundo permite realizar una separación precisa de las voces e instrumentos de las pistas en tiempo real, lo que ayuda a los DJs a mejorar la calidad de sus mezclas y adaptarlas mejor al ambiente de la pista de baile.

Las redes neuronales pueden ser entrenadas para reconocer y separar diferentes componentes de una pista de audio, como voces e instrumentos, permitiendo una manipulación más detallada y creativa del sonido.

Ziv Levy
Ziv Levy
27 min
13 Jun, 2024

Comments

Sign in or register to post your comment.
Video Summary and Transcription
Hoy exploramos la mezcla de DJ y cómo el aprendizaje profundo revoluciona el arte al discutir el procesamiento de sonido, la extracción de características y el uso del aprendizaje automático. El aprendizaje profundo permite la extracción eficiente de características de audio y la separación de pistas de alta resolución. Las redes neuronales pueden lograr la separación de fuentes convirtiendo el audio en espectrogramas y aplicando redes neuronales convolucionales y recurrentes. Esto tiene un impacto inmediato en industrias como el karaoke y la transcripción de música.

1. Introducción a la mezcla de DJ y el aprendizaje profundo

Short description:

Hoy vamos a explorar la mezcla de DJ y cómo el aprendizaje profundo revoluciona el arte. Soy un DJ en Wix y un científico de datos. Ser DJ es más que curar listas de reproducción, se trata de leer a la multitud. A veces, cuando intento mezclar una canción que suena perfecta en mis auriculares, falla en la pista de baile. Permítanme mostrarles un ejemplo. Discutiremos el procesamiento de sonido, la extracción de características y el uso del aprendizaje automático. Y luego, nos sumergiremos en el enfoque revolucionario del aprendizaje profundo.

Hoy vamos a explorar y adentrarnos en este arte de la mezcla, de la mezcla de DJ, y voy a hablar desde esta perspectiva como DJ y también vamos a hablar sobre cómo el aprendizaje profundo trae una revolución completa a este arte de la mezcla de música y en general lo que se puede hacer con las señales de sonido y las redes neuronales.

Entonces, nuevamente, un poco más sobre mí. He estado trabajando en Wix durante los últimos siete años. Trabajo en el grupo de ciencia de datos. Mi trabajo diario es construir tuberías de aprendizaje automático para los científicos de datos en toda la organización. Para aquellos de ustedes que no están familiarizados con Wix, Wix es una plataforma de creación de sitios web. Y nuevamente, también soy DJ. Mezclo sonidos Dark 80s, synthwave y techno y de eso vamos a hablar hoy, nuevamente, este aspecto de mi vida como DJ.

Y no necesito decirles que ser DJ no solo implica curar la lista de reproducción correcta, sino también la capacidad de leer a la multitud y ver qué canción va a seguir según la energía en la pista de baile. Y el problema es, como, el problema es que a veces escucho algo muy bueno que encaja perfectamente en la pista de baile en mis auriculares y cuando intento mezclarlo en la pista de baile, falla. Permítanme mostrarles cómo arruino una mezcla. Y lo mal que suena. Así que elegí estas dos canciones. Una de ellas es de Adele. Están familiarizados con esta canción, ¿verdad? Y la siguiente es, oh, no esta. La siguiente es esta. También familiar. Por cierto, todo lo que hago, lo hago en vivo. Así que si tengo algunos problemas o algo sale mal, discúlpenme. ¿De acuerdo?

En mi cabeza, esas canciones encajan perfectamente. Pero si intento reproducirlas, y saltemos a esto, al punto más destacado de la canción de Adele. Intentaré mezclar la canción exactamente en el punto más alto de la misma. De acuerdo. Como han escuchado, hay mucho ruido. Aquí es donde, ya saben, algunos de ustedes probablemente pondrían caras de, hmm, ¿qué? ¿Qué le pasa a este DJ? Pero afortunadamente para mí, se sorprenderán al ver lo que, ya saben, una multitud muy borracha puede superar. Pero para mí, es devastador. Realmente arruina el momento, el ambiente está desequilibrado y necesito recuperarme de ello, y es muy estresante. Pero nuevamente, en mi cabeza, era perfecto. Entonces, ¿qué fue? Entonces, de lo que vamos a hablar hoy es qué es el sonido y cómo procesamos el audio con computadoras y cómo extraemos características de este audio y cómo lo usamos en el aprendizaje automático. ¿De acuerdo? Y luego hablaremos del enfoque del aprendizaje profundo, que es realmente revolucionario.

2. Explorando la Separación de Fuentes y el Modelado de Sonido

Short description:

Todo comenzó con un correo electrónico sobre una tecnología única para separar las fuentes de las pistas. No le presté mucha atención hasta que un amigo pidió ayuda para separar las voces. Redescubrí la herramienta en mi software de DJ y quedé asombrado por sus capacidades en tiempo real. Intrigado, me adentré en la operación de fuentes musicales utilizando redes neuronales. El muestreo mide los niveles de amplitud, lo que resulta en una forma de onda que contiene información sobre la frecuencia, intensidad y timbre. Las computadoras tienen dificultades para distinguir entre los armónicos de los instrumentos, a diferencia de nuestros cerebros.

Y mientras hablamos, realmente están sucediendo cosas en este momento. Todo comenzó hace un par de años, cuando recibí un correo electrónico de las notas de lanzamiento del software de DJ que estoy utilizando, y decían algo así como: 'Queridos DJs, ahora podemos proporcionarles una tecnología única que les permitirá separar las fuentes de su pista y, con eso, ser creativos y hacer algo con ella'. Al principio, pensé que no era tan interesante. Quiero decir, probablemente ya se había resuelto. Pero era como la era posterior a la pandemia, todavía había limitaciones y restricciones de aglomeración, así que realmente no le presté atención en ese momento.

Recientemente, una amiga vino a mí y me pidió ayuda para separar las voces de una pista que tenía. Era una canción muy antigua y no había versiones de estudio ni nada por el estilo. ¿Qué podía hacer? A veces, tengo mi ecualizador aquí y puedo reproducir y, de alguna manera, reducir el sonido de algunos elementos o realzar el sonido de otros, pero no estaba creando realmente una versión de karaoke, desglosando las capas. Pero de repente recordé que tenía esta herramienta en mi software de DJ y leí la guía paso a paso de qué hacer, cómo configurarlo, hacer clic en unos botones y boom, lo tenía. Y me quedé asombrado, no solo fue agradable. Estaba asombrado por eso, y todo estaba sucediendo en tiempo real.

Esto es algo que no estaba en las notas de lanzamiento, por cierto, o tal vez sí lo estaba, pero no leí todo. Pero realmente me sorprendió, así que esto realmente activó mi parte ingenieril del cerebro. Y me pregunté, ¿qué hago? Quiero saber cómo suceden las cosas, así que fui a Google. Busqué la operación de fuentes musicales utilizando redes neuronales, descargué un artículo, lo leí, otro artículo, lo leí, descargué el conjunto de datos, descargué el código en Python, entrené el modelo yo mismo y luego lo probé con otra pista y otra pista y otra pista, y realmente me quedé impresionado con esta tecnología. Después de unas horas jugando con ella, así es como me veo. Descubrí un mundo completamente nuevo.

Entonces, lo primero es cómo modelamos el sonido, ¿de acuerdo? ¿Qué es el sonido? El sonido, en última instancia, es un cambio en la presión del aire causado por las vibraciones de las moléculas de aire. Nuestros oídos son sensibles a esas vibraciones y, en última instancia, esto es lo que nuestro cerebro percibe como sonido. Las computadoras hacen algo similar llamado muestreo. No voy a profundizar en esta técnica debido a las limitaciones de tiempo, pero la computadora mide los niveles de amplitud de esas vibraciones. Lo que obtenemos es una forma de onda, que es la representación visual más común del sonido, pero en realidad esta forma de onda contiene información multifactorial sobre el sonido. Lo primero es la frecuencia, ¿de acuerdo? Si nos acercamos, podemos obtener la frecuencia del sonido. Lo segundo es la intensidad del sonido. La intensidad se mide mediante un área al cuadrado de la forma de onda, y vemos cuál es el pico en proporción a cuáles son los puntos mínimos y máximos. Y luego tenemos algo muy importante, que es el timbre del sonido. El timbre también se considera la calidad tonal o el color tonal. No es la calidad de cómo escucho el sonido claramente, es la calidad tonal de cómo los armónicos de diferentes instrumentos se superponen entre sí. Por ejemplo, si estoy tocando un acorde de Do al mismo tiempo que alguien toca un acorde de Do en una guitarra, al mismo tiempo que alguien toca un acorde de Do en el piano, quiero poder distinguir entre esos instrumentos, y esto es algo muy difícil de hacer para las computadoras. De hecho, si lo piensas, nuestro cerebro puede hacerlo casi instantáneamente.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript
JSNation 2023JSNation 2023
21 min
Construyendo un Asistente AI Activado por Voz con Javascript
Top Content
This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.
IA y Desarrollo Web: ¿Exageración o Realidad?
JSNation 2023JSNation 2023
24 min
IA y Desarrollo Web: ¿Exageración o Realidad?
Top Content
This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.
El Ascenso del Ingeniero de IA
React Summit US 2023React Summit US 2023
30 min
El Ascenso del Ingeniero de IA
The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.
TensorFlow.js 101: Aprendizaje automático en el navegador y más allá
ML conf EU 2020ML conf EU 2020
41 min
TensorFlow.js 101: Aprendizaje automático en el navegador y más allá
TensorFlow.js enables machine learning in the browser and beyond, with features like face mesh, body segmentation, and pose estimation. It offers JavaScript prototyping and transfer learning capabilities, as well as the ability to recognize custom objects using the Image Project feature. TensorFlow.js can be used with Cloud AutoML for training custom vision models and provides performance benefits in both JavaScript and Python development. It offers interactivity, reach, scale, and performance, and encourages community engagement and collaboration between the JavaScript and machine learning communities.
Aplicaciones Web del Futuro con Web AI
JSNation 2024JSNation 2024
32 min
Aplicaciones Web del Futuro con Web AI
Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.
Cobertura de código con IA
TestJS Summit 2023TestJS Summit 2023
8 min
Cobertura de código con IA
Codium is a generative AI assistant for software development that offers code explanation, test generation, and collaboration features. It can generate tests for a GraphQL API in VS Code, improve code coverage, and even document tests. Codium allows analyzing specific code lines, generating tests based on existing ones, and answering code-related questions. It can also provide suggestions for code improvement, help with code refactoring, and assist with writing commit messages.

Workshops on related topic

IA a demanda: IA sin servidor
DevOps.js Conf 2024DevOps.js Conf 2024
163 min
IA a demanda: IA sin servidor
Top Content
Featured WorkshopFree
Nathan Disidore
Nathan Disidore
En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.
Aprovechando LLMs para Construir Experiencias de IA Intuitivas con JavaScript
JSNation 2024JSNation 2024
108 min
Aprovechando LLMs para Construir Experiencias de IA Intuitivas con JavaScript
Featured Workshop
Roy Derks
Shivay Lamba
2 authors
Hoy en día, todos los desarrolladores están utilizando LLMs en diferentes formas y variantes, desde ChatGPT hasta asistentes de código como GitHub CoPilot. Siguiendo esto, muchos productos han introducido capacidades de IA integradas, y en este masterclass haremos que los LLMs sean comprensibles para los desarrolladores web. Y nos adentraremos en la codificación de tu propia aplicación impulsada por IA. No se necesita experiencia previa en trabajar con LLMs o aprendizaje automático. En su lugar, utilizaremos tecnologías web como JavaScript, React que ya conoces y amas, al mismo tiempo que aprendemos sobre algunas nuevas bibliotecas como OpenAI, Transformers.js
Masterclass: Qué son y cómo aprovechar los LLMs
React Summit 2024React Summit 2024
66 min
Masterclass: Qué son y cómo aprovechar los LLMs
Featured Workshop
Nathan Marrs
Haris Rozajac
2 authors
Únete a Nathan en esta sesión práctica donde primero aprenderás a alto nivel qué son los modelos de lenguaje grandes (LLMs) y cómo funcionan. Luego sumérgete en un ejercicio de codificación interactivo donde implementarás la funcionalidad de LLM en una aplicación de ejemplo básica. Durante este ejercicio, adquirirás habilidades clave para trabajar con LLMs en tus propias aplicaciones, como la ingeniería de indicaciones y la exposición a la API de OpenAI.
Después de esta sesión, tendrás una idea de qué son los LLMs y cómo se pueden utilizar prácticamente para mejorar tus propias aplicaciones.
Tabla de contenidos:- Demostración interactiva de la implementación de funciones básicas impulsadas por LLM en una aplicación de demostración- Discutir cómo decidir dónde aprovechar los LLMs en un producto- Lecciones aprendidas sobre la integración con OpenAI / descripción general de la API de OpenAI- Mejores prácticas para la ingeniería de indicaciones- Desafíos comunes específicos de React (gestión de estado :D / buenas prácticas de UX)
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
React Advanced 2023React Advanced 2023
98 min
Trabajando con OpenAI y la Ingeniería de Prompts para Desarrolladores de React
Top Content
Workshop
Richard Moss
Richard Moss
En esta masterclass daremos un recorrido por la IA aplicada desde la perspectiva de los desarrolladores de front end, enfocándonos en las mejores prácticas emergentes cuando se trata de trabajar con LLMs para construir grandes productos. Esta masterclass se basa en los aprendizajes obtenidos al trabajar con la API de OpenAI desde su debut en noviembre pasado para construir un MVP funcional que se convirtió en PowerModeAI (una herramienta de creación de ideas y presentaciones orientada al cliente).
En la masterclass habrá una mezcla de presentación y ejercicios prácticos para cubrir temas que incluyen:
- Fundamentos de GPT- Trampas de los LLMs- Mejores prácticas y técnicas de ingeniería de prompts- Uso efectivo del playground- Instalación y configuración del SDK de OpenAI- Enfoques para trabajar con la API y la gestión de prompts- Implementación de la API para construir una aplicación orientada al cliente potenciada por IA- Ajuste fino y embeddings- Mejores prácticas emergentes en LLMOps
Construyendo Aplicaciones AI para la Web
React Day Berlin 2023React Day Berlin 2023
98 min
Construyendo Aplicaciones AI para la Web
Workshop
Roy Derks
Roy Derks
Hoy en día, cada desarrollador está utilizando LLMs en diferentes formas y figuras. Muchos productos han introducido capacidades AI incorporadas, y en esta masterclass aprenderás cómo construir tu propia aplicación AI. No se necesita experiencia en la construcción de LLMs o en el aprendizaje automático. En cambio, utilizaremos tecnologías web como JavaScript, React y GraphQL que ya conoces y amas.
Construyendo tu Aplicación de IA Generativa
React Summit 2024React Summit 2024
82 min
Construyendo tu Aplicación de IA Generativa
WorkshopFree
Dieter Flick
Dieter Flick
La IA generativa está emocionando a los entusiastas de la tecnología y a las empresas con su vasto potencial. En esta sesión, presentaremos Retrieval Augmented Generation (RAG), un marco que proporciona contexto a los Modelos de Lenguaje Grande (LLMs) sin necesidad de volver a entrenarlos. Te guiaremos paso a paso en la construcción de tu propia aplicación RAG, culminando en un chatbot completamente funcional.
Conceptos Clave: IA Generativa, Retrieval Augmented Generation
Tecnologías: OpenAI, LangChain, AstraDB Vector Store, Streamlit, Langflow