Edición de video en el navegador

Rate this content
Bookmark

La edición de video es un mercado en auge con influencers siendo toda la rabia con Reels, TikTok, Youtube. ¿Sabías que los navegadores ahora tienen todas las APIs para hacer edición de video en el navegador? En esta charla voy a darte una introducción sobre cómo funciona la codificación de video y cómo hacerla funcionar dentro del navegador. Spoiler, ¡no es trivial!

This talk has been presented at React Summit 2023, check out the latest edition of this React Conference.

FAQ

Christophe Archido, conocido en Internet como Vegeux, es un desarrollador que ha co-creado React Native, Prettier, Excalibur, y CSS en JS, aportando significativamente a la comunidad React.

Durante la pandemia, Christophe pasó mucho tiempo editando videos y consideró convertirse en un YouTuber a tiempo completo, lo que lo llevó a explorar la edición de video en el navegador.

Christophe encontró limitaciones en herramientas tradicionales como Final Cut Pro, especialmente la falta de avances de AI para tareas como la eliminación de fondos y la transcripción automática de audio a texto.

TensorFlow.js permite eliminar el fondo de los videos, ofreciendo capacidades de edición avanzadas directamente en el navegador.

Whisper es una herramienta que permite convertir audio hablado en palabras reales, facilitando la edición de video al permitir cortes más precisos basados en el diálogo.

Christophe argumenta que las APIs actuales no pueden manejar eficientemente los requisitos de datos y orden de los fotogramas de video modernos, especialmente en lo que se refiere a fotogramas bidireccionales y la manipulación de metadata compleja.

La codificación de video involucra la compresión de imágenes y la optimización de la transmisión de fotogramas basándose en la similitud entre ellos, mientras que la compresión de imágenes se centra en reducir el tamaño de imágenes individuales usando técnicas como la codificación de longitud de ejecución, la Transformada de Fourier y la codificación Huffman.

WebCodecs es una API que permite manipular codecs de video directamente en el navegador con alto rendimiento, aprovechando la aceleración por hardware, lo que es crucial para editar videos eficientemente en plataformas web.

Christophe sugiere que se necesita simplificar y empaquetar las APIs de edición de video, como jQuery hizo con JavaScript, para hacer la edición de video basada en AI más accesible y manejable en el navegador.

Christopher Chedeau
Christopher Chedeau
23 min
06 Jun, 2023

Comments

Sign in or register to post your comment.
Video Summary and Transcription
Esta charla discute los desafíos de la edición de video en el navegador y las limitaciones de las herramientas existentes. Explora técnicas de compresión de imágenes, incluyendo la transformada de Fourier y la codificación de Huffman, para reducir el tamaño de los archivos. Se explica el códec de video y el proceso de decodificación de cuadros, destacando la importancia de los cuadros clave y los cuadros delta. Se identifica el cuello de botella del rendimiento como el códec, y se enfatiza la necesidad de hardware especializado para una edición de video eficiente. La charla concluye con un llamado a crear una API simplificada para la edición de video en el navegador y el potencial de la edición de video impulsada por IA.
Available in English: Video Editing in the Browser

1. Introducción a la edición de video en el navegador

Short description:

Hola a todos. Hoy, quiero hablar sobre la edición de video en el navegador. Pasé mucho tiempo editando videos durante la pandemia. Sin embargo, me di cuenta de que las herramientas existentes no tenían los avances de IA que necesitaba. Quería eliminar la pantalla verde y las sombras, y cortar en función de las palabras habladas. Por otro lado, vi desarrollos emocionantes en JavaScript, como WebCodecs, TensorFlow.js y Whisper. Esta charla explicará por qué no pude lograr completamente un buen editor de video impulsado por IA. Comencemos pensando en hacer un video.

Hola a todos. Mi nombre es Christophe Archido, también conocido como Vegeux en Internet. Y he hecho algunas cosas para la React comunidad. Co-creé React Native, Prettier, Excalibur, CSS en JS, pero hoy quiero hablar sobre algo diferente. Quiero hablar sobre la edición de video en el navegador.

Entonces, durante la pandemia, pasé mucho tiempo editando video. E incluso pensé que tal vez debería convertirme en un YouTuber a tiempo completo. Pero luego me di cuenta de que con este número de vistas, probablemente debería mantener mi trabajo como ingeniero de software un poco más de tiempo.

Entonces, ¿qué significa editar videos? Así que usé una herramienta llamada Final Cut Pro. Y sentí que se construyó hace muchos, muchos años y no tenía todos los avances de AI que hemos visto recientemente. Entonces, por ejemplo, compré una pantalla verde de $20. Y necesito seleccionar el color verde y el rango para eliminarlo. Y como pueden ver, hay algunas sombras detrás de mí en la imagen. Y no se eliminó correctamente. Luego, para cortar, quiero saber qué estoy diciendo realmente para saber qué parte debería estar cortando. Pero solo obtuve las ondas de sonido y no las palabras reales que se hablaron. Por otro lado, estaba mirando el JavaScript, como las noticias del navegador, y vi muchas cosas súper emocionantes sucediendo. Entonces, podemos comenzar a hacer codificación y decodificación con WebCodecs. TensorFlow.js te permite eliminar el fondo del video. Y luego, Whisper te permite convertir lo que estoy diciendo en palabras reales. Entonces, aparentemente teníamos todos los bloques de construcción para poder hacer un muy buen editor de video impulsado por AI, pero desafortunadamente, no pude llegar hasta el final. Y esta charla va a ser la historia de por qué.

Entonces, generalmente cuando me adentro en un nuevo producto como este, hay algunas cosas que creo que son ciertas y voy a usar para basar todas las cosas que estoy haciendo. Pero hubo tres cosas en este caso que no eran ciertas. Entonces, la primera es que el tiempo solo avanza. La segunda es que cuando codificas un fotograma, obtienes un fotograma de vuelta. Y finalmente, que WASM es más rápido que JavaScript para la decodificación de video. Entonces, si quieres saber por qué esto no es cierto, abróchate el cinturón. Vamos a ello. Entonces, comencemos pensando en hacer un video.

2. API de edición de video y compresión de imágenes

Short description:

Desafortunadamente, la API deseada para la edición de video en el navegador no es posible debido a los grandes tamaños de archivo involucrados. Una sola imagen de mil por mil píxeles ya puede tener alrededor de cuatro megabytes de tamaño. Con 60 fotogramas por segundo, un video de un segundo sería de alrededor de 200 megabytes. Esto es demasiado grande para los navegadores y computadoras actuales. Sin embargo, se han desarrollado técnicas de compresión de imágenes para abordar este problema, que se discutirán en los siguientes minutos.

Y desafortunadamente no puedo estar aquí en persona hoy, así que lo que decidí hacer fue traer un poco de la soleada California a Ámsterdam. Y para esto puse una palmera en todas las imágenes. Entonces, en este caso, tenemos la cumbre de React en el fondo y luego moviéndonos al primer plano y la palmera desvaneciéndose. Entonces, ¿cuál sería la API que esperaría poder hacer eso? Así que inicialmente quería una API de carga de video. Que toma una ruta de archivo y me devuelve una lista de imágenes. Y luego voy a modificar las imágenes, eliminar el fondo, como cortar y pegar y un montón de cosas. Y luego como un guardar video que tomaría la ruta del archivo y renderizaría. Y como una lista de imágenes y como realmente guardar el video.

Entonces, desafortunadamente, esta API no puede existir. Veamos por qué. Así que vamos a ver una imagen de todo este video. Ni demasiado grande, ni demasiado pequeña. Como una imagen de mil por mil. ¿Y cuán grande es en realidad para representar esto? Va a ser como mil por mil píxeles. Alrededor de un megabyte. Y luego hay rojo, verde y azul. Y entonces estamos alrededor de cuatro megabytes de tamaño. Y esto es solo para una imagen. Ahora, si quieres como 60 fps, como un segundo, vas a estar en alrededor de 200 megabytes por cada segundo. Así que esta charla ahora mismo es de unos 20 minutos. Así que esto va a ser grande. Y esto en realidad va a ser demasiado grande para el navegador o cualquier computadora en este momento. ¿Y qué hacemos? Afortunadamente, muchas personas muy inteligentes han trabajado en esto durante años. Y lo que construyeron es una máquina de encogimiento. Bueno, no exactamente. Lo que la gente ha estado haciendo es la compresión de imágenes. Y entonces voy a hablar durante los próximos minutos sobre diferentes tipos de compresión de imágenes. Y no porque lo encuentre interesante, que lo hago, sino porque en realidad tienen un gran factor en la API real utilizada para la codificación de video. Así que veamos las ideas principales en torno a la codificación de video. Lo siento, sobre la compresión de imágenes.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Compilador React Forget - Entendiendo React Idiomático
React Advanced 2023React Advanced 2023
33 min
Compilador React Forget - Entendiendo React Idiomático
Top Content
Joe Savona
Mofei Zhang
2 authors
The Talk discusses React Forget, a compiler built at Meta that aims to optimize client-side React development. It explores the use of memoization to improve performance and the vision of Forget to automatically determine dependencies at build time. Forget is named with an F-word pun and has the potential to optimize server builds and enable dead code elimination. The team plans to make Forget open-source and is focused on ensuring its quality before release.
Acelerando tu aplicación React con menos JavaScript
React Summit 2023React Summit 2023
32 min
Acelerando tu aplicación React con menos JavaScript
Top Content
Mishko, the creator of Angular and AngularJS, discusses the challenges of website performance and JavaScript hydration. He explains the differences between client-side and server-side rendering and introduces Quik as a solution for efficient component hydration. Mishko demonstrates examples of state management and intercommunication using Quik. He highlights the performance benefits of using Quik with React and emphasizes the importance of reducing JavaScript size for better performance. Finally, he mentions the use of QUIC in both MPA and SPA applications for improved startup performance.
SolidJS: ¿Por qué tanto Suspense?
JSNation 2023JSNation 2023
28 min
SolidJS: ¿Por qué tanto Suspense?
Top Content
Suspense is a mechanism for orchestrating asynchronous state changes in JavaScript frameworks. It ensures async consistency in UIs and helps avoid trust erosion and inconsistencies. Suspense boundaries are used to hoist data fetching and create consistency zones based on the user interface. They can handle loading states of multiple resources and control state loading in applications. Suspense can be used for transitions, providing a smoother user experience and allowing prioritization of important content.
De GraphQL Zero a GraphQL Hero con RedwoodJS
GraphQL Galaxy 2021GraphQL Galaxy 2021
32 min
De GraphQL Zero a GraphQL Hero con RedwoodJS
Top Content
Tom Pressenwurter introduces Redwood.js, a full stack app framework for building GraphQL APIs easily and maintainably. He demonstrates a Redwood.js application with a React-based front end and a Node.js API. Redwood.js offers a simplified folder structure and schema for organizing the application. It provides easy data manipulation and CRUD operations through GraphQL functions. Redwood.js allows for easy implementation of new queries and directives, including authentication and limiting access to data. It is a stable and production-ready framework that integrates well with other front-end technologies.
Los Átomos de Jotai Son Simplemente Funciones
React Day Berlin 2022React Day Berlin 2022
22 min
Los Átomos de Jotai Son Simplemente Funciones
Top Content
State management in React is a highly discussed topic with many libraries and solutions. Jotai is a new library based on atoms, which represent pieces of state. Atoms in Jotai are used to define state without holding values and can be used for global, semi-global, or local states. Jotai atoms are reusable definitions that are independent from React and can be used without React in an experimental library called Jotajsx.
Un Marco para Gestionar la Deuda Técnica
TechLead Conference 2023TechLead Conference 2023
35 min
Un Marco para Gestionar la Deuda Técnica
Top Content
Today's Talk discusses the importance of managing technical debt through refactoring practices, prioritization, and planning. Successful refactoring requires establishing guidelines, maintaining an inventory, and implementing a process. Celebrating success and ensuring resilience are key to building a strong refactoring culture. Visibility, support, and transparent communication are crucial for addressing technical debt effectively. The team's responsibilities, operating style, and availability should be transparent to product managers.

Workshops on related topic

Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Node Congress 2024Node Congress 2024
152 min
Construye Aplicaciones Modernas Utilizando GraphQL y Javascript
Featured Workshop
Emanuel Scirlet
Miguel Henriques
2 authors
Ven y aprende cómo puedes potenciar tus aplicaciones modernas y seguras utilizando GraphQL y Javascript. En este masterclass construiremos una API de GraphQL y demostraremos los beneficios del lenguaje de consulta para APIs y los casos de uso para los que es adecuado. Se requiere conocimiento básico de Javascript.
Construyendo una Aplicación de Shopify con React & Node
React Summit Remote Edition 2021React Summit Remote Edition 2021
87 min
Construyendo una Aplicación de Shopify con React & Node
Top Content
WorkshopFree
Jennifer Gray
Hanna Chen
2 authors
Los comerciantes de Shopify tienen un conjunto diverso de necesidades, y los desarrolladores tienen una oportunidad única para satisfacer esas necesidades construyendo aplicaciones. Construir una aplicación puede ser un trabajo duro, pero Shopify ha creado un conjunto de herramientas y recursos para ayudarte a construir una experiencia de aplicación sin problemas lo más rápido posible. Obtén experiencia práctica construyendo una aplicación integrada de Shopify utilizando el CLI de la aplicación Shopify, Polaris y Shopify App Bridge.Te mostraremos cómo crear una aplicación que acceda a la información de una tienda de desarrollo y pueda ejecutarse en tu entorno local.
Construye una sala de chat con Appwrite y React
JSNation 2022JSNation 2022
41 min
Construye una sala de chat con Appwrite y React
WorkshopFree
Wess Cope
Wess Cope
Las API/Backends son difíciles y necesitamos websockets. Utilizarás VS Code como tu editor, Parcel.js, Chakra-ui, React, React Icons y Appwrite. Al final de este masterclass, tendrás los conocimientos para construir una aplicación en tiempo real utilizando Appwrite y sin necesidad de desarrollar una API. ¡Sigue los pasos y tendrás una increíble aplicación de chat para presumir!
Problemas difíciles de GraphQL en Shopify
GraphQL Galaxy 2021GraphQL Galaxy 2021
164 min
Problemas difíciles de GraphQL en Shopify
WorkshopFree
Rebecca Friedman
Jonathan Baker
Alex Ackerman
Théo Ben Hassen
 Greg MacWilliam
5 authors
En Shopify a gran escala, resolvemos algunos problemas bastante difíciles. En este masterclass, cinco oradores diferentes describirán algunos de los desafíos que hemos enfrentado y cómo los hemos superado.

Tabla de contenidos:
1 - El infame problema "N+1": Jonathan Baker - Vamos a hablar sobre qué es, por qué es un problema y cómo Shopify lo maneja a gran escala en varios APIs de GraphQL.
2 - Contextualizando APIs de GraphQL: Alex Ackerman - Cómo y por qué decidimos usar directivas. Compartiré qué son las directivas, qué directivas están disponibles de forma predeterminada y cómo crear directivas personalizadas.
3 - Consultas de GraphQL más rápidas para clientes móviles: Theo Ben Hassen - A medida que tu aplicación móvil crece, también lo harán tus consultas de GraphQL. En esta charla, repasaré diversas estrategias para hacer que tus consultas sean más rápidas y efectivas.
4 - Construyendo el producto del futuro hoy: Greg MacWilliam - Cómo Shopify adopta las características futuras en el código actual.
5 - Gestión efectiva de APIs grandes: Rebecca Friedman - Tenemos miles de desarrolladores en Shopify. Veamos cómo estamos asegurando la calidad y consistencia de nuestras APIs de GraphQL con tantos colaboradores.
De 0 a Autenticación en una Hora para tu Aplicación JavaScript
JSNation 2023JSNation 2023
57 min
De 0 a Autenticación en una Hora para tu Aplicación JavaScript
WorkshopFree
Asaf Shen
Asaf Shen
La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend Node.js + frontend Vanilla JS) para autenticar usuarios con contraseñas de un solo uso (correo electrónico) y OAuth, incluyendo:
- Autenticación de usuario: Gestión de interacciones de usuario, devolución de JWT de sesión / actualización- Gestión y validación de sesiones: Almacenamiento seguro de la sesión para solicitudes posteriores del cliente, validación / actualización de sesiones
Al final del masterclass, también abordaremos otro enfoque para la autenticación de código utilizando Flujos de Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.