Entonces, en las técnicas tradicionales de aprendizaje automático, digamos que tengo este sonido y quiero saber si es un motor de coche. Esto suena como un motor de coche, ¿verdad? Entonces, digamos que soy un científico de datos o un ingeniero. Tengo que extraer diferentes tipos de características. Por el bien de este ejemplo, tomemos estas dos y las explicaré. El sobre de amplitud son los picos de las amplitudes, ¿vale, y los valores circundantes? Y la tasa de cruce por cero es como el ángulo o la velocidad cuando los valores de amplitud pasan de valores positivos a negativos.
Entonces, digamos que elijo esas dos y construyo un conjunto de datos adecuado. Entreno el modelo y ahora tengo un modelo que puede predecir, dado un sonido, si es un motor de coche o no. Pero escucha cuánto trabajo tuve que poner en este esfuerzo porque supongamos que por cada pequeño fragmento de sonido, necesito extraer todas esas características y procesarlas. Y esto a veces puede llevar tiempo.
Ahora, en una red neuronal o específicamente en el aprendizaje profundo, mi capacidad para darle a la red un audio en bruto como entrada, ¿vale, o de esta manera, digamos que no es un audio en bruto, es como un espectrograma y dejar que la red haga su magia como suele hacerlo con, por ejemplo, imágenes o cualquier otra cosa, como con imágenes. Y no necesito trabajar demasiado para eso porque la red extrae todas las características del audio por mí. Y eventualmente obtengo una predicción de si es un motor de coche o no. Ahora, si quiero, por supuesto, preparar un conjunto de datos y calcular alguna función de pérdida y entrenar la red una y otra vez, siento que obtengo una red sólida lista para la producción.
Puedo repetir este proceso, pero eventualmente quiero hacer lo mismo y separar las fuentes de las pistas en voces e instrumentos. Veamos cómo suena. Volvamos a Adele. Vale, ahora haré clic en algunos botones que preparé, suponiendo que este controlador de DJ es como un teclado, para que pueda configurarlo para presionar algunos botones y que funcione algo. De esta manera, quiero separar a Adele, por ejemplo. Ahora, no sé si te das cuenta, pero este es un ejemplo de alta resolución, alta calidad de separación de la pista. Puedes escuchar claramente la voz de Adele, incluyendo, por cierto, a los otros cantantes. Sí, los cantantes de respaldo, gracias. Y veamos cómo suena con los chicos de Crazy Town. Come my lady, come my lady, you're my butterfly, sugar, baby. Come my lady, come, come my lady, you're my butterfly, sugar, baby. You're such a sexy, sexy, pretty little thing, this little bitch, she got me strung with your tongue ring. Es un poco menos, menos como, menos performance que el resultado de Adele, pero aún así obtenemos una muy buena calidad de las voces aparte. Y si, en este ejemplo, solo quiero obtener los instrumentos, obtendré algo así. Y ahora tengo, solo los ritmos, ¿vale? Y puedo trabajar con eso. Y podemos ver algo, tal vez algo así.
Comments