Rompiendo el Techo del Contexto: Implementación de Modelos de Lenguaje Recursivos con LangGraph y TypeScript

This ad is not shown to multipass and full ticket holders
JS Nation
JSNation 2026
June 11 - 15, 2026
Amsterdam & Online
The main JavaScript conference of the year
Upcoming event
JSNation 2026
JSNation 2026
June 11 - 15, 2026. Amsterdam & Online
Learn more
Bookmark
Rate this content
Sentry
Promoted
Code breaks, fix it faster

Crashes, slowdowns, regressions in prod. Seer by Sentry unifies traces, replays, errors, profiles to find root causes fast.

El reciente artículo de MIT ""Recursive Language Models"" demostró que los LLMs pueden procesar entradas 100x más allá de sus ventanas de contexto, no expandiendo la ventana, sino tratando los prompts como entornos externos que el modelo explora programáticamente. Los resultados son sorprendentes: GPT-5-mini superó a GPT-5 en tareas de contexto largo mientras usaba un cómputo comparable. Esta charla demuestra cómo construir la misma arquitectura en TypeScript usando LangGraph y Node.js.

Implementaremos un sistema RLM en el que un agente raíz orquesta sub-agentes recursivos, cada uno operando en un segmento de contexto enfocado sin sufrir ""context rot."" Veremos cómo aprovechar la ejecución de gráficos cíclicos de LangGraph para generar agentes hijos, agregar sus hallazgos en un estado compartido y permitir que el orquestador sintetice resultados, todo mientras mantenemos las ventanas de contexto individuales pequeñas y frescas.

Al final, tendrás un patrón de trabajo para procesar documentos masivos, bases de código o conjuntos de datos que ahogarían una sola llamada LLM, usando herramientas que puedes desplegar hoy.

Puntos clave:

  • - Por qué las ventanas de contexto más grandes no resuelven el context rot
  • - Arquitectura de gráficos de agentes recursivos en LangGraph
  • - Gestión del estado y ejecución de herramientas a través de jerarquías de agentes
  • - Compromisos de costo y latencia en producción

This talk has been presented at Node Congress 2026, check out the latest edition of this JavaScript Conference.

Jamal Sinclair O'Garro
Jamal Sinclair O'Garro
21 min
26 Mar, 2026

Comments

Sign in or register to post your comment.
Video Summary and Transcription
Jamal Legaro discute los desafíos con las ventanas de contexto en los modelos de lenguaje y los modelos de lenguaje recursivos como solución. Mejorando el rendimiento de los modelos de lenguaje a través de metadatos y resúmenes, copias del orquestador y comparando enfoques scaffold y RLM. Gestión eficiente de las operaciones de modelos de lenguaje con segmentación, recursión, ejecución de código y manejo de ventanas de contexto. Diseño de flujo de trabajo basado en gráficos en Langchain para conexiones de agentes y gestión de estado. Gestión de flujo de trabajo, análisis de documentos y uso de RLM para procesar documentos grandes. Configuración detallada del flujo de trabajo, estructura de código con Langsmith y definiciones de nodos con beneficios de RLM para consideraciones de costo y preparación para producción.

1. Desafíos con las Ventanas de Contexto en Modelos de Lenguaje

Short description:

Jamal Legaro, ingeniero de software en Netflix, discute los desafíos con las ventanas de contexto en los modelos de lenguaje. Los modelos grandes enfrentan una degradación del rendimiento a medida que aumentan los tokens, lo que lleva a un efecto de pérdida en el medio. Los modelos de lenguaje recursivos ofrecen una solución al descomponer el texto en partes más pequeñas, lo que permite una mejor retención del contexto y toma de decisiones.

Hola Node Congress. Mi nombre es Jamal Legaro. Soy un ingeniero de software senior en Netflix, trabajando en la plataforma de experimentación, y bienvenidos a mi charla, Rompiendo el Techo del Contexto, Modelos de Lenguaje Recursivos en TypeScript, o Cómo Procesar Documentos 100 Veces Más Grandes que la Ventana de Contexto de tu LOM Usando LangRep. Hablemos más sobre el problema con las ventanas de contexto. Si usas modelos de lenguaje grandes en herramientas como Claw, Gemini, Claw to Code, puedes notar que cuando eliges tus modelos, típicamente tienen un límite en su ventana de contexto, usualmente entre 128,000 a 1 millón de tokens. Pero una cosa que no te dicen es que el rendimiento realmente va a degradarse a medida que comienzas a pasar por esos tokens. Hay un efecto de pérdida en el medio que básicamente dice que a medida que comienzas a llenar esa ventana de contexto, y te acercas al límite, tu modelo solo puede recordar eficientemente lo que está al principio o al final del contexto. Y todo en el medio básicamente se pierde o se olvida, o es más difícil de encontrar. Y lo que eso hace es causar una degradación en el rendimiento real de tu modelo de lenguaje grande. Entonces, algunos ejemplos de dónde esto puede suceder es, digamos, si tienes documentación de API, estoy pensando en múltiples documentos a través de múltiples aplicaciones, y estás tratando de juntar alguna información para averiguar cómo funciona el sistema en un sentido más amplio, o estás tratando de encontrar algún tipo de cambios disruptivos en las muchas notas de lanzamiento, haciendo algo de depuración o triaje. Y debido a esta pérdida en el medio, probablemente te perderás los cambios que estás buscando, porque el contexto es demasiado grande. Esto también sucede para bases de código muy grandes. Imagina si tuvieras toneladas de documentos de postmortems de incidentes que estás tratando de revisar, y luego muchas especificaciones técnicas. La idea es que cuanto más grande sea el texto, más se convierte en un problema. Entonces, una forma de evitar esto es usar algo llamado un modelo de lenguaje recursivo. Y esto proviene de algunos estudiantes e investigadores en MIT. Y la idea es bastante simple. Lo que dicen es que, en lugar de poner todo el documento en tu prompt para inflar ese contexto, o prácticamente ocupar mucho de tu contexto, lo que puedes hacer es descomponer recursivamente ese texto en piezas más pequeñas, y luego tener un modelo orquestador que escriba código determinista, y tenga sub, diré sub, digamos, engendros de sí mismo o copias de sí mismo, que realicen esa operación de búsqueda de texto. Y luego devolvemos algunos metadatos y una versión condensada del texto que el orquestador más grande puede usar para realmente tomar una decisión. Entonces, antes de profundizar en eso, probablemente sea un bocado, probablemente mucho que desempacar, pero vamos a pasar por ello poco a poco, ¿verdad? Así que vamos a desglosarlo en piezas más pequeñas para que podamos entenderlo. Así que primero veamos los dos enfoques diferentes. Entonces, el documento habla de uno llamado el andamio estándar. Eso es a lo que estás acostumbrado hoy. Básicamente, si estás usando Cloud Code o usando Codex, y estás mirando tu prompt, usualmente verás como en la esquina inferior derecha o en algún lugar dentro del terminal o dentro de esa interfaz, cuánto contexto has usado realmente en una sesión. Y una vez que llegas a cierto nivel, se auto-contactará por ti y básicamente comprimirá toda esa información en una versión más pequeña de sí misma para devolverte algo más de contexto, pero aún entender lo que estás trabajando dentro del sistema. Eso es un poco problemático porque lo que realmente sucede es que comienzas a perder algo de información porque esa compresión en sí misma es con pérdida, ¿verdad? No estás manteniendo todo. Ahora, el avance aquí, y lo que el documento propone, es que hay un nuevo tipo de algoritmo o arquitectura que podemos usar llamado un modelo de lenguaje recursivo, o un RLM. Y básicamente lo que hace, tiene tres cosas principales que quieres tener, como manejadores simbólicos, programación simbólica y recursión simbólica. Y luego hablaremos de eso. Pero el concepto principal aquí, si miras el pseudocódigo aquí, la idea aquí es que si tienes un entorno, ¿verdad?

, en el que tu modelo de números grandes está trabajando, realmente no hay necesidad de almacenar tu estado en el modelo en sí.

2. Mejorando el Rendimiento del Modelo de Lenguaje con RLM

Short description:

Para mejorar el rendimiento del modelo de lenguaje, utiliza metadatos y resúmenes en lugar de prompts completos. El orquestador crea copias para analizar el texto, ahorrando tiempo y costos. Comparar los enfoques de andamio y RLM muestra diferencias en el manejo del contexto, la recursión y los tamaños de salida.

Pero quieres pasarlo en contexto porque el modelo no puede acceder a él, ¿verdad? Y luego lo que haces es que puedes mantener tu historial, pero en lugar de todo el historial del prompt que tiene que ser compactado con el tiempo, puedes realmente pasar solo algunos metadatos sobre él y luego cuál es el estado actual. Y luego lo que parece es que tienes el OAM, tomas tu historial, luego produce algún código. Desde allí, ese código se ejecuta, el estado se asocia con él, y esta ejecución aquí es como una replicación de sí mismo, de otro agente o varios agentes que básicamente realizarán ese código. Así que piensa en como cortar la lista de textos. Una vez que obtiene el texto, probablemente pasará un prompt que dice, encuentra alguna información relevante en este texto, ¿está aquí? Sí, pásalo de vuelta al modelo orquestador actual. El orquestador puede entonces tomar eso y todo el otro contexto para todos los otros agentes que han surgido, y decidir sintetizar al final y luego proporcionar un resultado final. Así que lo bueno es que tu prompt vive en el entorno y tienes este agente orquestado que básicamente crea copias de sí mismo y luego permite que esas copias analicen el texto real del documento, y luego devuelvan un resumen al modelo más grande. Como resultado, nunca pones el prompt completo o el documento completo en el modelo real. Y luego eso básicamente te ahorra mucho, no tanto tiempo, pero definitivamente te ahorra algo de contexto y también algunos costos. Así es como funciona ese algoritmo a un alto nivel.

Así que comparemos ambos enfoques. Así que como el andamio es que la principal diferencia es que estás poniendo el prompt completo dentro de tu ventana de contexto. Así que por muy grande que sea, cuántos tokens tenga ese prompt, o que tenga ese documento, eso básicamente llena la ventana de contexto con esa cantidad. Así que estás moviendo ese espacio desde el principio. Luego lo que sucede a medida que tu historial crece, porque estás agregando más información, se está guardando más contexto, porque estás en el mismo sistema, la misma sección, continúa creciendo. Vas a ver que tu historial crece mucho más rápido. En el enfoque RLM, solo estás pasando resúmenes y metadatos sobre lo que está sucediendo. Así que eso mantiene la ventana de contexto pequeña, solo suficiente información para entender dónde estás en la recursión y luego qué información tienes. Así que el orquestador puede realizar varias acciones como detenerse, continuar generando elementos de sí mismo o saber que tiene suficiente información para devolverte una respuesta. Luego está la recursión en sí misma. Así que lo que sucede aquí, es programático en RLM. Lo que significa que realmente estás escribiendo código que va a ser ejecutado. Mientras que en la versión estándar, básicamente estás pasando otro prompt o instrucción como llama a esta herramienta o responde a esta pregunta por mí. Así que esa es una de las principales diferencias entre este enfoque y el enfoque de sub-agente con el que puedes estar familiarizado. Luego el tamaño de salida, estás limitado por K, que es el tamaño del contexto del modelo con el que estás trabajando. Pero si estás usando esta estructura RLM en teoría, estás técnicamente sin límites. Porque solo estás tomando pequeños fragmentos de datos, estás generando instancias más pequeñas de RLMs que viven y mueren a medida que pasan información de vuelta. Y el sistema está construido de tal manera que no deberías poder exceder la ventana de contexto en ese orquestador principal porque solo estás ingiriendo suficiente información para tomar una decisión informada. Así que para profundizar en nuestra arquitectura, tenemos tres componentes principales. Está el orquestador, que es solo un modelo lingüista grande que genera código.

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?
Node Congress 2022Node Congress 2022
26 min
Es una jungla ahí fuera: ¿Qué está pasando realmente dentro de tu carpeta Node_Modules?
Top Content
The talk discusses the importance of supply chain security in the open source ecosystem, highlighting the risks of relying on open source code without proper code review. It explores the trend of supply chain attacks and the need for a new approach to detect and block malicious dependencies. The talk also introduces Socket, a tool that assesses the security of packages and provides automation and analysis to protect against malware and supply chain attacks. It emphasizes the need to prioritize security in software development and offers insights into potential solutions such as realms and Deno's command line flags.
Cargadores ESM: Mejorando la carga de módulos en Node.js
JSNation 2023JSNation 2023
22 min
Cargadores ESM: Mejorando la carga de módulos en Node.js
Top Content
ESM Loaders enhance module loading in Node.js by resolving URLs and reading files from the disk. Module loaders can override modules and change how they are found. Enhancing the loading phase involves loading directly from HTTP and loading TypeScript code without building it. The loader in the module URL handles URL resolution and uses fetch to fetch the source code. Loaders can be chained together to load from different sources, transform source code, and resolve URLs differently. The future of module loading enhancements is promising and simple to use.
El Estado de Node.js 2025
JSNation 2025JSNation 2025
30 min
El Estado de Node.js 2025
Top Content
The speaker covers a wide range of topics related to Node.js, including its resilience, popularity, and significance in the tech ecosystem. They discuss Node.js version support, organization activity, development updates, enhancements, and security updates. Node.js relies heavily on volunteers for governance and contribution. The speaker introduces an application server for Node.js enabling PHP integration. Insights are shared on Node.js downloads, infrastructure challenges, software maintenance, and the importance of update schedules for security.
Hacia una Biblioteca Estándar para Runtimes de JavaScript
Node Congress 2022Node Congress 2022
34 min
Hacia una Biblioteca Estándar para Runtimes de JavaScript
Top Content
There is a need for a standard library of APIs for JavaScript runtimes, as there are currently multiple ways to perform fundamental tasks like base64 encoding. JavaScript runtimes have historically lacked a standard library, causing friction and difficulty for developers. The idea of a small core has both benefits and drawbacks, with some runtimes abusing it to limit innovation. There is a misalignment between Node and web browsers in terms of functionality and API standards. The proposal is to involve browser developers in conversations about API standardization and to create a common standard library for JavaScript runtimes.
Diagnostics de Node.js listos para usar
Node Congress 2022Node Congress 2022
34 min
Diagnostics de Node.js listos para usar
This talk covers various techniques for getting diagnostics information out of Node.js, including debugging with environment variables, handling warnings and deprecations, tracing uncaught exceptions and process exit, using the v8 inspector and dev tools, and generating diagnostic reports. The speaker also mentions areas for improvement in Node.js diagnostics and provides resources for learning and contributing. Additionally, the responsibilities of the Technical Steering Committee in the TS community are discussed.
Compatibilidad con Node.js en Deno
Node Congress 2022Node Congress 2022
34 min
Compatibilidad con Node.js en Deno
Deno aims to provide Node.js compatibility to make migration smoother and easier. While Deno can run apps and libraries offered for Node.js, not all are supported yet. There are trade-offs to consider, such as incompatible APIs and a less ideal developer experience. Deno is working on improving compatibility and the transition process. Efforts include porting Node.js modules, exploring a superset approach, and transparent package installation from npm.

Workshops on related topic

Construyendo un Sistema RAG en Node.js: Bases de Datos Vectoriales, Embeddings y Chunking
Node Congress 2025Node Congress 2025
98 min
Construyendo un Sistema RAG en Node.js: Bases de Datos Vectoriales, Embeddings y Chunking
Featured Workshop
Alex Korzhikov
Pavlik Kiselev
2 authors
Los Modelos de Lenguaje Grande (LLMs) son poderosos, pero a menudo carecen de conocimiento en tiempo real. La Generación Aumentada por Recuperación (RAG) cierra esta brecha al obtener información relevante de fuentes externas antes de generar respuestas. En esta masterclass, exploraremos cómo construir un pipeline RAG eficiente en Node.js utilizando feeds RSS como fuente de datos. Compararemos diferentes bases de datos vectoriales (FAISS, pgvector, Elasticsearch), métodos de embedding y estrategias de prueba. También cubriremos el papel crucial del chunking: dividir y estructurar datos de manera efectiva para un mejor rendimiento de recuperación.Requisitos Previos- Buen entendimiento de JavaScript o TypeScript- Experiencia con Node.js y desarrollo de API- Conocimientos básicos de bases de datos y LLMs son útiles pero no requeridos
Agenda📢 Introducción a RAG💻 Demo - Aplicación de Ejemplo (RAG con Feeds RSS)📕 Bases de Datos Vectoriales (FAISS, pgvector, Elasticsearch) y Embeddings🛠️ Estrategias de Chunking para Mejor Recuperación🔬 Pruebas y Evaluación de Pipelines RAG (Precisión, Recall, Rendimiento)🏊‍♀️ Consideraciones de Rendimiento y Optimización🥟 Resumen y Preguntas y Respuestas
Construir un MCP (Model Context Protocol) en Node.js
JSNation US 2025JSNation US 2025
97 min
Construir un MCP (Model Context Protocol) en Node.js
Featured Workshop
Julián Duque
Julián Duque
Model Context Protocol (MCP) introduce un enfoque estructurado para la gestión de contexto de LLM que aborda las limitaciones en los métodos de prompting tradicionales. En esta masterclass, aprenderás sobre el Model Context Protocol, su arquitectura y cómo construir y usar un MCP con Node.jsTabla de Contenidos:¿Qué es el Model Context Protocol?Tipos de MCPs (Stdio, SSE, HTTP Streaming)Comprendiendo Herramientas, Recursos y PromptsConstruyendo un MCP con el SDK Oficial de TypeScript en Node.jsDesplegando el MCP en la Nube (Heroku)Integrando el MCP con Tu Herramienta de IA Favorita (Claude Desktop, Cursor, Windsurf, VS Code Copilot)Consideraciones de Seguridad y Mejores Prácticas
Masterclass de Node.js
Node Congress 2023Node Congress 2023
109 min
Masterclass de Node.js
Top Content
Workshop
Matteo Collina
Matteo Collina
¿Alguna vez has tenido dificultades para diseñar y estructurar tus aplicaciones Node.js? Construir aplicaciones que estén bien organizadas, sean probables y extensibles no siempre es fácil. A menudo puede resultar ser mucho más complicado de lo que esperas. En este evento en vivo, Matteo te mostrará cómo construye aplicaciones Node.js desde cero. Aprenderás cómo aborda el diseño de aplicaciones y las filosofías que aplica para crear aplicaciones modulares, mantenibles y efectivas.

Nivel: intermedio
Construir y Desplegar un Backend Con Fastify & Platformatic
JSNation 2023JSNation 2023
104 min
Construir y Desplegar un Backend Con Fastify & Platformatic
Top Content
WorkshopFree
Matteo Collina
Matteo Collina
Platformatic te permite desarrollar rápidamente GraphQL y REST APIs con un esfuerzo mínimo. La mejor parte es que también te permite desatar todo el potencial de Node.js y Fastify siempre que lo necesites. Puedes personalizar completamente una aplicación de Platformatic escribiendo tus propias características y plugins adicionales. En la masterclass, cubriremos tanto nuestros módulos de Open Source como nuestra oferta en la Nube:- Platformatic OSS (open-source software) — Herramientas y bibliotecas para construir rápidamente aplicaciones robustas con Node.js (https://oss.platformatic.dev/).- Platformatic Cloud (actualmente en beta) — Nuestra plataforma de alojamiento que incluye características como aplicaciones de vista previa, métricas integradas e integración con tu flujo de Git (https://platformatic.dev/). 
En esta masterclass aprenderás cómo desarrollar APIs con Fastify y desplegarlas en la Platformatic Cloud.
Construyendo un Servidor Web Hiper Rápido con Deno
JSNation Live 2021JSNation Live 2021
156 min
Construyendo un Servidor Web Hiper Rápido con Deno
Top Content
Workshop
Matt Landers
Will Johnston
2 authors
Deno 1.9 introdujo una nueva API de servidor web que aprovecha Hyper, una implementación rápida y correcta de HTTP para Rust. El uso de esta API en lugar de la implementación std/http aumenta el rendimiento y proporciona soporte para HTTP2. En este masterclass, aprende cómo crear un servidor web utilizando Hyper en el fondo y mejorar el rendimiento de tus aplicaciones web.
0 a Auth en una Hora Usando NodeJS SDK
Node Congress 2023Node Congress 2023
63 min
0 a Auth en una Hora Usando NodeJS SDK
WorkshopFree
Asaf Shen
Asaf Shen
La autenticación sin contraseña puede parecer compleja, pero es fácil de agregar a cualquier aplicación utilizando la herramienta adecuada.
Mejoraremos una aplicación JS de pila completa (backend de Node.JS + frontend de React) para autenticar usuarios con OAuth (inicio de sesión social) y contraseñas de un solo uso (correo electrónico), incluyendo:- Autenticación de usuario - Administrar interacciones de usuario, devolver JWT de sesión / actualización- Gestión y validación de sesiones - Almacenar la sesión para solicitudes de cliente posteriores, validar / actualizar sesiones
Al final del masterclass, también tocaremos otro enfoque para la autenticación de código utilizando Flujos Descope en el frontend (flujos de arrastrar y soltar), manteniendo solo la validación de sesión en el backend. Con esto, también mostraremos lo fácil que es habilitar la biometría y otros métodos de autenticación sin contraseña.
Tabla de contenidos- Una breve introducción a los conceptos básicos de autenticación- Codificación- Por qué importa la autenticación sin contraseña
Requisitos previos- IDE de tu elección- Node 18 o superior