Versión en EspañolES

Analizando Millones de URLs por Segundo

Member of Node.js Technical Steering Committee

Con el fin de la escala de Dennard, el costo de la computación ya no está disminuyendo a nivel de hardware: para mejorar la eficiencia, necesitamos un mejor software. A veces, los entornos de ejecución de JavaScript competidores son más rápidos que Node.js: ¿podemos cerrar la brecha? Mostramos que Node.js no solo puede igualar a los competidores más rápidos, sino que incluso puede superarlos con suficiente esfuerzo. Las URL son el elemento más fundamental en las aplicaciones web. Node.js 16 era significativamente más lento que los motores competidores (Bun y Deno) en el análisis de URL. Al reducir el número de instrucciones y vectorizar subalgoritmos, multiplicamos por tres la velocidad de análisis de URL en Node.js (a partir de Node.js 20). Si ha actualizado Node.js, tiene el motor JavaScript con el análisis de URL más rápido de la industria con un soporte intransigente para el último estándar de URL WHATGL. Compartimos nuestras estrategias para acelerar tanto el procesamiento de C++ como el de JavaScript en la práctica.

This talk has been presented at Node Congress 2024, check out the latest edition of this JavaScript Conference.

node.js

Yagiz Nizipli

14 min

04 Apr, 2024

Comments

Video Summary and Transcription

La charla de hoy explora el rendimiento del análisis de URL en Node.js e introduce el analizador de URL ADA, que puede analizar 6 millones de URL por segundo. El analizador de URL ADA incluye optimizaciones como hashing perfecto, tablas de memoización y vectorización. Está disponible en varios lenguajes y tiene enlaces para los lenguajes de programación populares. Para obtener más información, comuníquese con Ada URL y el blog de Daniel Lemire.

Available in English: Parsing Millions of URLs per Second

1. URL Parsing and Performance

Short description:

La charla de hoy trata sobre el análisis de millones de URLs por segundo y lograr una mejora del 400%. Exploraremos el rendimiento de Node.js en 2023 y el impacto de una nueva dependencia de análisis de URLs. También discutiremos la estructura de una URL y los diferentes componentes involucrados.

Hola. Hoy voy a hablar sobre el análisis de millones de URLs por segundo. Mi nombre es Elzen Zipli y soy un ingeniero de software senior en Sentry. Soy miembro del comité directivo técnico de OGS. Soy miembro del consejo de proyectos cruzados de la Fundación OpenJS. Puedes contactarme a través de mi cuenta de GitHub, github.com, y a través de X, anteriormente conocido como Twitter, en X.com. El rendimiento del software en la última década ha cambiado drásticamente. El objetivo principal era reducir costos en entornos de nube como AWS, Azure o Google Cloud. La latencia ha sido un problema y, para mejorarla, necesitamos optimizar nuestro código más que nunca. Reducir la complejidad, el paralelismo, la caché y el rendimiento trae ese tipo de cosas. Y lo más importante, el cambio climático. Las computadoras más rápidas han dado lugar a un mejor futuro y un mejor clima. Entonces, el estado del rendimiento de Node.js en 2023. Esta es una cita de eso. Desde Node.js 18, se agregó una nueva dependencia de análisis de URLs a Node.js 8. Esta adición eleva el rendimiento de Node.js en el análisis de URLs a un nuevo nivel. Algunos resultados pueden alcanzar una mejora del 400%. Estado del rendimiento de Node.js en 2023 y esto está escrito por Rafael Gonzaga, que es miembro del comité directivo técnico de Node.js. Esta charla trata sobre cómo logramos una mejora del 400% en el análisis de URLs. Otra cita de James Snell de Cloudflare y también del TSC de Node.js. Simplemente establece un punto de referencia para un cambio de código, pasa de tardar 11 segundos en completarse a aproximadamente medio segundo en completarse, esto me hace muy feliz. Esto se refiere a la adición de Ada URL a Cloudflare. Entonces, comencemos con la estructura de una URL. Por ejemplo, tenemos HTTPS usuario contraseña en example.com, 1 2 3 4, que es el número de puerto, luego tenemos Foo, Bar, Buzz y QUU. Comienza con el protocolo, HTTPS es el protocolo, termina con la barra. Luego tenemos el nombre de usuario y la contraseña. Este es un campo opcional en todas las URLs. Luego tenemos el nombre de host, que es example.com. Luego tenemos el puerto, que es 1 2 3 4. Y luego

2. URL Parsing and Assumptions

Short description:

Las URL tienen varios componentes opcionales, diferentes codificaciones y admiten diferentes tipos de URL como URL basadas en archivos, URL de JavaScript y nombres de ruta con puntos. Implementaciones como PHP, Python, curl y Go siguen diferentes especificaciones de análisis de URL. Desafiamos las suposiciones de que el análisis de URL no importa y que las URL son gratuitas.

tenemos el nombre de ruta, que es barra diagonal Foo barra diagonal. Y luego vemos la búsqueda, que comienza con un signo de interrogación Buzz. Y luego tenemos el hash, que es QUU. Entonces, el número de puerto, nombre de ruta, búsqueda, hash, nombre de usuario, contraseña, todos son opcionales. Incluso el nombre de host es opcional si tienes una URL de archivo. Pero esto es solo un ejemplo de cómo es esta estructura de una URL. También hay, a pesar de la estructura de la URL, también hay diferentes codificaciones que la especificación de URL admite, como el formato no ASCII, que es el primero. Luego admitimos URL basadas en archivos, que es lo que ves en sistemas basados en Unix, archivo, barra, barra, barra, Foo, Bar, Buzz, Foo, Bar, Test, Node.js. Luego tenemos URL de JavaScript, que es JavaScript dos puntos alerta. Luego tenemos la codificación porcentual que comienza con una URL que tiene subsecciones, subcadenas que tienen un carácter de porcentaje en guion. Y luego tenemos nombres de ruta con puntos, que es como ejemplo.org barra punto A barra A punto punto barra B, que básicamente se resuelve en una URL diferente según la especificación de URL. Luego tenemos direcciones IPv4 con dígitos hexadecimales y octales, 127.0.0.0.0.0.0.0.1, que es 127.0.0.0.1. Y también tenemos IPv6 y así sucesivamente. Según lo que hacemos con la URL, si ingresamos esta cadena de entrada, HTTPS711home punto punto barra Montreal. PHP en PHP, no cambia. En Python, no cambia. En lo que hacemos con la URL, que es implementado por Chrome, Safari y todos los navegadores, incluido Ada, es xn-guion-guion-711 y así sucesivamente. En curl, es muy diferente. Y como puedes ver, en Go runtime, también es muy diferente. Esto se debe principalmente a diferentes implementaciones y también a todos los demás subsistemas, todos los demás lenguajes que no siguen estrictamente lo que hacemos con la URL. Para PHP y Python, básicamente analizan la URL desde el principio y la cadena sin hacer ninguna asignación. Y para curl y Go, implementan una especificación diferente llamada RFC 3787. O similar, no estoy muy seguro. Entonces tenemos estas suposiciones antiguas como ¿realmente importa el análisis de URL? ¿Es el cuello de botella de alguna métrica de rendimiento? Las URL son gratuitas, no ganas nada superponiéndolas.

3. Creando una Prueba de Referencia HTTP

Short description:

Creemos una prueba de referencia HTTP utilizando Festify para probar las suposiciones. Se utilizan dos puntos finales, uno que devuelve la URL sin cambios y otro que la analiza con la nueva URL y devuelve el href correspondiente. Los resultados de la comparación se muestran en la parte inferior.

Estas fueron las suposiciones que rompimos con nuestro trabajo. Y verás por qué. Así que creemos, entendamos si estas suposiciones son verdaderas. Creemos la prueba de referencia HTTP utilizando Festify. Y hay dos puntos finales que obtienes al usar un post, que es slash simple. Básicamente tiene una URL en el cuerpo JSON y lo mismo para el otro. Pero en el primero, no estamos devolviendo, estamos devolviendo la URL sin hacer nada. En el segundo, la estamos analizando con la nueva URL. Y luego estamos devolviendo el href, que es la cadena que le corresponde. Y luego, en la parte inferior, verás el ejemplo de entrada que enviamos y la comparación entre

4. Descripción general del analizador de URL ADA

Short description:

En slash simple, casi tenemos 60,000 solicitudes por segundo. Pero si lo analizamos, tenemos alrededor de 50,000, 50, 52, tal vez 52,000. El análisis de URL era un cuello de botella en el nodo 18.50. Anunciamos el analizador de URL ADA, llamado así por mi hija Ada Nisiply. Es un analizador de URL completo compatible con what-vg, sin dependencias ni ICU, con más de 20,000 líneas de código, utilizado por Node.js y CloudFlare workers, y puede analizar 6 millones de URL por segundo. Es más rápido que las alternativas en C, C++ y ROS.

En slash simple, casi tenemos 60,000 solicitudes por segundo. Pero si lo analizamos, tenemos alrededor de 50,000, 50, 52, tal vez 52,000. Por lo tanto, el análisis de URL era un cuello de botella en el nodo 18.50. Así que esto se ejecuta en el nodo 18.50, antes de ADA, antes de cualquier optimización que se haga en el análisis de URL. Así que anunciamos el analizador de URL ADA, que lleva el nombre de mi hija, Ada Nisiply. Es un analizador de URL completo compatible con what-vg. No tiene dependencias, es completamente portátil. Esto significa que no incluye ICU. Tiene más de 20,000 líneas de code. Es el trabajo de seis meses de 25 colaboradores. Tiene licencia Apache 2.0 y MIT. Está disponible en github.com. Actualmente es utilizado por Node.js y CloudFlare workers. En general, puede analizar 6 millones de URL por segundo. Esta prueba de referencia que estoy compartiendo con ustedes se ejecuta en Apple M2, LLVM 14. Tiene una amplia gama de fuentes de datos realistas. Y es más rápido que las alternativas en C, C++ y ROS. Y para las bibliotecas que implementan what-vg URL, también es mucho más rápido. En el lado derecho, verán Wikipedia 100k, que es 100,000 URL analizadas y analizadas del dominio de Wikipedia. Top 100 son los sitios web con más tráfico del mundo. Y el tercero son los archivos de Linux. Básicamente, rastreamos el sistema operativo Linux y almacenamos cada ruta. Luego tenemos la base de usuarios y el HTTP que encontramos en Internet. Como pueden ver, Ada es casi el doble de rápido que la segunda alternativa. Es alrededor de un 6 a 7% más rápido que curl en este momento. Para lograr eso, tenemos algunos trucos que en general te darán un

5. Optimizaciones para el Análisis de URL

Short description:

El primer truco es la perfect hashing. Redujimos el número de ramificaciones. Se utilizaron tablas de memoización para reducir las declaraciones condicionales y almacenar los valores ya analizados. La vectorización permite procesar 16 elementos a la vez. La base de código se mejoró en un 60, 70, 80 por ciento. Hay un benchmark de JavaScript disponible para realizar pruebas. La biblioteca Ada C++ es segura y eficiente.

La idea de cómo logramos estos resultados asombrosos. El primer truco es la perfect hashing. Esto significa que hemos reducido el número de ramificaciones. Y si puedes ver, tenemos nombres de una matriz de vista de cadena, HTTP, HTTPS, W, FTP, WSS file. Luego tenemos estos contextos llamados HTTP, no URLs especiales, HTTPS, WS, que corresponden a los web sockets, FTP, WSS y file. Estos tipos corresponden al esquema de URL what-vg. Y para obtener el tipo de esquema a partir de aquí, utilizamos un algoritmo para encontrar perfectamente la posición correcta dentro de la matriz de nombres de la entrada que tenemos. Y este es uno de los ejemplos. El segundo truco es, por supuesto, las tablas de memoización. Para reducir el número de ramificaciones y reducir las declaraciones condicionales, lo que hicimos fue utilizar operaciones a nivel de bits y obtener los valores ya analizados de una tabla en sí. Al hacer eso, tenemos una tabla de carga que contiene 255 caracteres y almacena cero o uno según si es un carácter malo o no. Este es un gran ejemplo de cómo mejorar el rendimiento de una función y, al mismo tiempo, aumentar el tamaño del binario. El tercero es utilizar la vectorización. Por lo tanto, no proceses byte por byte cuando puedes procesar 16 por 16. Los nuevos procesadores en el mundo actualmente admiten la iteración de vectorización de 16 por 16 a través de la matriz, por lo que no necesitamos iterar uno por uno. Y, por ejemplo, este ejemplo tiene tabulaciones o una nueva línea. Para entender si una cadena en particular tiene un carácter de tabulación o una nueva línea, utilizamos el siguiente ejemplo. No voy a profundizar en esto por el bien de hoy, pero la información está disponible y hay optimizaciones disponibles para aumentar la iteración y el tiempo de ejecución de un bucle for básico con ciertos trucos. Además de estas eficientes bibliotecas de C++ y JavaScript, estas optimizaciones, proporcionamos un puente eficiente entre JavaScript y la implementación de C++. Esto se hace especialmente para la integración con Node.js para que el costo de serialización de la conversión de cadena a cadena de C++ a JavaScript se reduzca lo máximo posible. Pasar múltiples cadenas es costoso, y pasar una cadena con un desplazamiento. Básicamente, tenemos un href y devolvemos ocho enteros diferentes que corresponden al final del protocolo, final del nombre de usuario, inicio del host, final del host, etc. Entonces, si conocemos el final del protocolo, puedes tomar la subcadena del href tomando de cero al final del protocolo, por ejemplo, y si tienes un nombre de usuario, etc. Estas son optimizaciones que mejoran la base de código en un 60, 70, 80 por ciento. Aquí tienes un ejemplo de benchmark de JavaScript. Básicamente, toma líneas y trata de analizarlas y agrega la longitud del href a un valor y luego cuenta las URL buenas y las URL malas. Esto se hace para eliminar las optimizaciones del compilador JIT para deshabilitar esa eliminación de código en V8. El benchmark está disponible en github.com/adurl/gs-url-benchmark y por favor, échale un vistazo y si hay algo que nos hayamos perdido, por favor, tómate el tiempo para crear un problema en el repositorio de GitHub. Este benchmark en particular en el nodo 18.15.0 ejecutó alrededor de 0.8 millones de URL por segundo. En ese momento, dno 1.32.5 estaba haciendo 0.9 millones, bun 0.5.9 estaba alrededor de 1.5 millones, y en el nodo 20.1.0, ahora mismo es de 2.9 millones.

6. Pruebas, Disponibilidad de Lenguajes y Contacto

Short description:

Lo escribimos en C++ moderno. Realizamos pruebas exhaustivas con sanitizadores y fuzzing. Los errores menores se corrigieron rápidamente. Ada está disponible en varios lenguajes, incluyendo JavaScript (Node.js), y tiene enlaces para Rust, Go, Python y R. Ponte en contacto con Ada URL y el blog de Daniel Lemire para obtener más información.

URLs por segundo. La biblioteca Ada C++ es segura y eficiente. Lo escribimos en C++ moderno. Realizamos pruebas exhaustivas. Probamos con sanitizadores. Realizamos fuzzing testing. Tenemos muchas unit tests que contribuyeron especialmente a las pruebas de la plataforma web. Se informaron algunos errores menores en los últimos meses, principalmente relacionados con el estándar. Los corregimos rápidamente en menos de 24 horas.

Ada está disponible en el lenguaje de tu elección. En JavaScript, está disponible en Node.js. Tenemos enlaces en C en GitHub. Tenemos Rust, Go, Python y R. A menudo, esta es la única forma de obtener soporte en esos lenguajes en particular. Gracias por escuchar. Puedes ponerte en contacto con Ada URL en AdaURL.com. Puedes ponerte en contacto con mi blog en y puedes ponerte en contacto con el blog de mi coautor, Daniel Lemire, en lemire.me. Gracias.

Available in other languages:

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?

Node Congress 2022

26 min

Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?

Top Content

Feross Aboukhadijeh

Feross is the author and maintainer of WebTorrent, StandardJS, and 100s of other open source projects

The talk discusses the importance of supply chain security in the open source ecosystem, highlighting the risks of relying on open source code without proper code review. It explores the trend of supply chain attacks and the need for a new approach to detect and block malicious dependencies. The talk also introduces Socket, a tool that assesses the security of packages and provides automation and analysis to protect against malware and supply chain attacks. It emphasizes the need to prioritize security in software development and offers insights into potential solutions such as realms and Deno's command line flags.

node.js security

Cargadores ESM: Mejorando la carga de módulos en Node.js

JSNation 2023

22 min

Cargadores ESM: Mejorando la carga de módulos en Node.js

Top Content

Gil Tayar

Microsoft, Israel

ESM Loaders enhance module loading in Node.js by resolving URLs and reading files from the disk. Module loaders can override modules and change how they are found. Enhancing the loading phase involves loading directly from HTTP and loading TypeScript code without building it. The loader in the module URL handles URL resolution and uses fetch to fetch the source code. Loaders can be chained together to load from different sources, transform source code, and resolve URLs differently. The future of module loading enhancements is promising and simple to use.

node.js

Hacia una Biblioteca Estándar para Runtimes de JavaScript

Node Congress 2022

34 min

Hacia una Biblioteca Estándar para Runtimes de JavaScript

Top Content

James Snell

Workers team @Cloudflare

There is a need for a standard library of APIs for JavaScript runtimes, as there are currently multiple ways to perform fundamental tasks like base64 encoding. JavaScript runtimes have historically lacked a standard library, causing friction and difficulty for developers. The idea of a small core has both benefits and drawbacks, with some runtimes abusing it to limit innovation. There is a misalignment between Node and web browsers in terms of functionality and API standards. The proposal is to involve browser developers in conversations about API standardization and to create a common standard library for JavaScript runtimes.

javascript component library node.js

Diagnostics de Node.js listos para usar

Node Congress 2022

34 min

Diagnostics de Node.js listos para usar

Colin Ihrig

Member of the Node.js Technical Steering Committee

This talk covers various techniques for getting diagnostics information out of Node.js, including debugging with environment variables, handling warnings and deprecations, tracing uncaught exceptions and process exit, using the v8 inspector and dev tools, and generating diagnostic reports. The speaker also mentions areas for improvement in Node.js diagnostics and provides resources for learning and contributing. Additionally, the responsibilities of the Technical Steering Committee in the TS community are discussed.

node.js

El Estado de Node.js 2025

JSNation 2025

30 min

El Estado de Node.js 2025

Matteo Collina

Node.js TSC committee member. Pino & Fastify author.

The speaker covers a wide range of topics related to Node.js, including its resilience, popularity, and significance in the tech ecosystem. They discuss Node.js version support, organization activity, development updates, enhancements, and security updates. Node.js relies heavily on volunteers for governance and contribution. The speaker introduces an application server for Node.js enabling PHP integration. Insights are shared on Node.js downloads, infrastructure challenges, software maintenance, and the importance of update schedules for security.

node.js

Compatibilidad con Node.js en Deno

Node Congress 2022

34 min

Compatibilidad con Node.js en Deno

Bartek Iwanczuk

Deno core team member

Deno aims to provide Node.js compatibility to make migration smoother and easier. While Deno can run apps and libraries offered for Node.js, not all are supported yet. There are trade-offs to consider, such as incompatible APIs and a less ideal developer experience. Deno is working on improving compatibility and the transition process. Efforts include porting Node.js modules, exploring a superset approach, and transparent package installation from npm.

node.js deno js runtimes

Workshops on related topic

Masterclass de Node.js

Node Congress 2023

109 min

Masterclass de Node.js

Top Content

Workshop

Matteo Collina

¿Alguna vez has tenido dificultades para diseñar y estructurar tus aplicaciones Node.js? Construir aplicaciones que estén bien organizadas, sean probables y extensibles no siempre es fácil. A menudo puede resultar ser mucho más complicado de lo que esperas. En este evento en vivo, Matteo te mostrará cómo construye aplicaciones Node.js desde cero. Aprenderás cómo aborda el diseño de aplicaciones y las filosofías que aplica para crear aplicaciones modulares, mantenibles y efectivas.

Nivel: intermedio

node.js

Construir y Desplegar un Backend Con Fastify & Platformatic

JSNation 2023

104 min

Construir y Desplegar un Backend Con Fastify & Platformatic

Top Content

WorkshopFree

Matteo Collina

Platformatic te permite desarrollar rápidamente GraphQL y REST APIs con un esfuerzo mínimo. La mejor parte es que también te permite desatar todo el potencial de Node.js y Fastify siempre que lo necesites. Puedes personalizar completamente una aplicación de Platformatic escribiendo tus propias características y plugins adicionales. En la masterclass, cubriremos tanto nuestros módulos de Open Source como nuestra oferta en la Nube:- Platformatic OSS (open-source software) — Herramientas y bibliotecas para construir rápidamente aplicaciones robustas con Node.js (https://oss.platformatic.dev/).- Platformatic Cloud (actualmente en beta) — Nuestra plataforma de alojamiento que incluye características como aplicaciones de vista previa, métricas integradas e integración con tu flujo de Git (https://platformatic.dev/).
En esta masterclass aprenderás cómo desarrollar APIs con Fastify y desplegarlas en la Platformatic Cloud.

node.js cloud graphql fastify

Construyendo un Servidor Web Hiper Rápido con Deno

JSNation Live 2021

156 min

Construyendo un Servidor Web Hiper Rápido con Deno

Workshop

2 authors

Deno 1.9 introdujo una nueva API de servidor web que aprovecha Hyper, una implementación rápida y correcta de HTTP para Rust. El uso de esta API en lugar de la implementación std/http aumenta el rendimiento y proporciona soporte para HTTP2. En este masterclass, aprende cómo crear un servidor web utilizando Hyper en el fondo y mejorar el rendimiento de tus aplicaciones web.

node.js deno backend

0 a Auth en una Hora Usando NodeJS SDK

Node Congress 2023

63 min

0 a Auth en una Hora Usando NodeJS SDK

WorkshopFree

Asaf Shen

La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend de Node.JS + frontend de React) para autenticar usuarios con OAuth (inicio de sesión social) y contraseñas de un solo uso (correo electrónico), incluyendo:- Autenticación de usuario - Administrar interacciones de usuario, devolver JWT de sesión / actualización- Gestión y validación de sesiones - Almacenar la sesión para solicitudes de cliente posteriores, validar / actualizar sesiones
Al final del masterclass, también tocaremos otro enfoque para la autenticación de código utilizando Flujos Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.
Tabla de contenidos- Una breve introducción a los conceptos básicos de autenticación- Codificación- Por qué importa la autenticación sin contraseña
Requisitos previos- IDE de tu elección- Node 18 o superior

javascript node.js authentication

GraphQL: De Cero a Héroe en 3 horas

React Summit 2022

164 min

GraphQL: De Cero a Héroe en 3 horas

Workshop

Pawel Sawicki

Cómo construir una aplicación GraphQL fullstack (Postgres + NestJs + React) en el menor tiempo posible.
Todos los comienzos son difíciles. Incluso más difícil que elegir la tecnología es desarrollar una arquitectura adecuada. Especialmente cuando se trata de GraphQL.
En este masterclass, obtendrás una variedad de mejores prácticas que normalmente tendrías que trabajar en varios proyectos, todo en solo tres horas.
Siempre has querido participar en un hackathon para poner algo en funcionamiento en el menor tiempo posible, entonces participa activamente en este masterclass y únete a los procesos de pensamiento del instructor.

node.js web development graphql beginner friendly

Dominando Node.js Test Runner

TestJS Summit 2023

78 min

Dominando Node.js Test Runner

Workshop

Marco Ippolito

Node.js test runner es moderno, rápido y no requiere bibliotecas adicionales, pero entenderlo y usarlo bien puede ser complicado. Aprenderás a utilizar Node.js test runner a su máximo potencial. Te mostraremos cómo se compara con otras herramientas, cómo configurarlo y cómo ejecutar tus pruebas de manera efectiva. Durante la masterclass, haremos ejercicios para ayudarte a sentirte cómodo con el filtrado, el uso de afirmaciones nativas, la ejecución de pruebas en paralelo, el uso de CLI y más. También hablaremos sobre trabajar con TypeScript, hacer informes personalizados y la cobertura de código.

testing typescript node.js