Versión en EspañolES

[EN] When Less Is More: A Technical Overview of LLMs and the Strength of Smaller Models
[ES] Cuando Menos Es Más: Una Visión Técnica de los LLMs y la Fuerza de los Modelos Más Pequeños

Cuando Menos Es Más: Una Visión Técnica de los LLMs y la Fuerza de los Modelos Más Pequeños

En la IA generativa, los modelos de lenguaje grandes (LLMs) más grandes a menudo dominan los titulares, aclamados como las mejores soluciones para las tareas más complejas y diversas. Si bien ciertamente tienen su lugar, ¿son la mejor opción para cada caso de uso empresarial?

Los modelos de lenguaje más pequeños están ganando terreno por su capacidad para ofrecer un alto rendimiento con menores costos y requisitos de recursos. Estos modelos son más rápidos, más fáciles de ajustar y mejor adaptados a las necesidades comerciales específicas, lo que los convierte en una alternativa atractiva para muchas organizaciones.

En esta sesión, vamos a:

-Explorar la estructura técnica y el contenido de los LLMs.

-Discutir cómo los modelos más pequeños y diseñados para un propósito específico pueden ser más eficientes y efectivos para tareas empresariales, incluyendo cómo las técnicas de optimización de modelos pueden mejorar aún más el rendimiento.

-Demostrar cómo los LLMs más pequeños pueden proporcionar soluciones más rápidas y rentables mientras siguen cumpliendo con las demandas de casos de uso especializados.

This talk has been presented at AI Coding Summit 2026, check out the latest edition of this Tech Conference.

artificial intelligence

Legare Kerrison

11 min

26 Feb, 2026

Comments

Video Summary and Transcription

Lugari Karasen de Red Hat AI discute los aspectos técnicos de los modelos de lenguaje grandes, incluyendo la recopilación de datos, la tokenización y los internos de las redes neuronales. El entrenamiento de modelos implica convertir el lenguaje humano en representaciones matemáticas y ajustar los parámetros de manera iterativa en un entorno complejo. Motores de inferencia como VLLM ayudan en el despliegue de modelos para el procesamiento rápido de datos. Optimizar el tamaño del modelo para la eficiencia sin sacrificar la precisión es crucial, con la cuantización reduciendo el tamaño del modelo mientras se mantiene la precisión. El despliegue local ofrece privacidad y control, y los modelos más pequeños diseñados para un propósito específico pueden mejorar los flujos de trabajo y la experimentación.

Available in English: When Less Is More: A Technical Overview of LLMs and the Strength of Smaller Models

1. Technical Overview of Language Models

Short description:

Lugari Karasen, developer advocate at Red Hat AI, discute sobre los modelos de lenguaje grandes, centrándose en la recopilación de datos, la tokenización, los aspectos internos de las redes neuronales y la inferencia de modelos. Tocando las fortalezas de los modelos más pequeños, el proceso incluye la extracción de datos web, el filtrado de datos, la conversión de lenguaje a representaciones matemáticas y la tokenización para el entrenamiento.

Hola chicos, soy Lugari Karasen. Soy un defensor de desarrolladores en Red Hat AI, y hoy vamos a hablar sobre una visión técnica de los modelos de lenguaje grandes y las fortalezas de los modelos más pequeños. Así que lo que vamos a tocar hoy y los próximos 10 minutos, vamos a ver la recopilación de datos para el pre-entrenamiento de estos modelos, la tokenización de esos datos, cómo se ven los aspectos internos de una red neuronal. Y luego la inferencia de estos modelos una vez que es el momento de llevarlos a producción. A través de eso, luego tocaremos las fortalezas de los modelos más pequeños.

Así que primero, la recopilación de datos para el pre-entrenamiento. Si alguna vez has publicado en internet, probablemente hayas ayudado a contribuir al entrenamiento de estos modelos. Aquí podemos ver el gráfico estadístico de Common Crawl de cómo se ve una jerarquía web. Common Crawl es un raspador web que aloja un montón de páginas de internet y los datos que están en ellas. Cada laboratorio tiene algún conjunto de datos similar a lo que Common Crawl ha capturado para entrenar estos modelos.

Así que una vez que extraes del sitio web, la gente típicamente filtra las URLs que van a llevar predictivamente a malos resultados. Van a extraer el texto de estos sitios web, ignorar cosas que no son texto, filtrar por el tipo de lenguaje que deseas. Tal vez quieras que sea 65% inglés, algún otro porcentaje de un idioma diferente. Al final del día, todo se va a convertir en representaciones matemáticas. A partir de ahí, vas a eliminar duplicados y, con suerte, cualquier información personal identificable, como números de seguridad social, contraseñas, etc. A partir de ahí, vamos a tokenizar esos datos.

2. Model Training and Inference

Short description:

Convirtiendo el lenguaje humano en matemáticas a través de la codificación y la tokenización. Los modelos de entrenamiento ajustan los parámetros de manera iterativa para reflejar patrones de datos, operando en un entorno complejo y rico en parámetros. Los motores de inferencia como VLLM facilitan el despliegue en producción de modelos para el procesamiento rápido de datos y la generación de nuevos datos.

Así que esto es convertir el lenguaje humano en matemáticas. Si vemos este extracto de Alice in Wonderland, podemos pensar, hmm, sabemos que una red neuronal necesita una entrada 1D de símbolos. Así que vamos a convertir esto en binarios con una codificación UTF-8.

Y luego, a partir de ahí, agrupar estos binarios en 8 bits o un byte. Y eso nos dejará con 256 combinaciones posibles de binarios. Y luego, si ejecutamos un algoritmo de codificación de pares de bytes, hará que esta lista sea más corta y nos dará más símbolos agrupando partes comúnmente encontradas.

Luego nos quedaremos con la versión tokenizada del lenguaje humano. Esta aplicación en la que conecté este extracto ha resaltado cada palabra en el lenguaje humano con el token que le corresponde. Se corresponde libremente con una palabra por token, pero no uno a uno.

3. Model Training Complexity and Inference Engines

Short description:

Durante el entrenamiento, los modelos ajustan los parámetros de manera iterativa para reflejar patrones de datos en un proceso altamente complejo. Los modelos pueden tener miles de millones de parámetros, con ejemplos como Chat2BT5 entrenados en billones. Los motores de inferencia como VLLM facilitan el despliegue de modelos para el procesamiento rápido de datos y la generación de nuevos datos.

Entonces, ¿qué está sucediendo durante el entrenamiento? Para tener un modelo mental de esto, debo decir que cada algoritmo va a ser diferente y esto es altamente complejo. Pero, en términos generales, el entrenamiento consiste en encontrar los parámetros correctos para que el modelo tenga salidas que sean representativas de los patrones en los datos con los que fue entrenado. Así que vamos a tomar los tokens que creamos y los pesos o parámetros que corresponden con ellos y ajustar esos pesos y parámetros a través de un proceso iterativo. Comienzan al azar y luego, lentamente, al reducir la pérdida, se vuelven más representativos del conjunto de datos.

Un espacio de incrustación de vectores me ayuda a visualizar cómo se ve esto. Nuevamente, esta es una representación vaga. Esto es muy, muy complejo. En realidad, un modelo puede tener miles de millones de parámetros, casi debe tener miles de millones de parámetros. Es raro ver algún modelo con menos de mil millones de parámetros. Y Chat2BT5, por ejemplo, fue entrenado, creo, con tres billones de parámetros. Pero si miramos esto y tenemos cada punto representando un token, podemos ver que en este espacio de dimensiones infinitas, estos tokens o palabras se colocarán cerca de palabras que correspondan con ellos. Y reina podría estar a la misma distancia de mujer que rey está a la misma distancia de hombre.

Así que ahora inferencia. En su mayoría, no vamos a entrenar estos modelos, pero seremos responsables como desarrolladores de llevarlos a producción y asegurarnos de que las entradas de nuestros usuarios se procesen rápidamente y podamos generar nuevos datos a partir de estos modelos un token a la vez. Así que necesitamos un motor de inferencia para poner estos en producción. Es necesario. Las entradas requeridas para VLLM, que es un motor de inferencia de código abierto al que Red Hat ayuda a contribuir son una configuración, un tokenizador y tensores seguros. Todos estos se pueden encontrar en HuggingFace, que es un repositorio para modelos. Algunos motores de inferencia son compatibles con los archivos en HuggingFace. Algunos no lo son. VLLM sí lo es, lo que definitivamente aumenta su facilidad de uso. Así que hay compensaciones cuando estás desplegando estos LLMs. Si estás optimizando para baja latencia y alta precisión, probablemente también obtendrás un alto costo. Esa alta precisión a menudo proviene de un modelo muy grande, lo que a menudo significa un modelo costoso.

4. Model Size Optimization and Local Deployment

Short description:

Aumentar la precisión añadiendo parámetros puede obstaculizar el rendimiento de la inferencia, abogando por modelos más pequeños, rápidos y rentables. La cuantización reduce el tamaño del modelo manteniendo la precisión. Comparando modelos más pequeños y cuantizados, estos últimos mantienen la precisión con menos parámetros totales. El despliegue local de modelos ofrece privacidad de datos, control y flexibilidad de experimentación sin necesidades significativas de infraestructura.

Por ejemplo, si aumentamos la precisión, podríamos estar añadiendo parámetros a nuestro modelo, lo que a su vez lleva a un descenso en el rendimiento de la inferencia. Así que este es el primer argumento algo obvio para modelos más pequeños, que es que los modelos más pequeños son más rápidos de inferir y cuestan menos de inferir. Aquí hay un gráfico que muestra cuánto pagaría una empresa para ejecutar cada uno de estos modelos de diferentes tamaños, 8 mil millones, 7 mil millones, 70 mil millones, 450 mil millones de modelos de parámetros, como instancias bajo demanda en la nube, también conocido como hacer ping a un endpoint para ejecutar estos modelos. Ahora puedes ver que los costos aquí son muy diferentes para un modelo cuya precisión podría no ser tan diferente. Así que solo para nivelar rápidamente, ¿qué es un modelo pequeño? Pensaría en un modelo pequeño como algo que es fácil para mí de ejecutar en mi entorno de desarrollo local on-prem, tradicionalmente 8 mil millones de parámetros o menos, mientras que grande va a ser de 70 mil millones a 1 billón. Necesitamos algún hardware potente en ese punto.

Entonces, ¿cómo podemos hacer nuestro modelo más pequeño pero aún así mantener la precisión? Una buena opción a considerar es la cuantización. Así que la cuantización es encoger y reducir la precisión de los números dentro del modelo. Así que estos pesos pueden ser números bastante precisos, pero similar a cómo pi tiene muchos puntos decimales y es muy preciso, sigue siendo pi en 3.145. Así que podemos reducir la precisión de los pesos de la misma manera, lo que hará que este modelo sea más pequeño.

Podemos reducir la precisión de los pesos, como mencioné, o las activaciones, que son los números que se están multiplicando en multiplicaciones de matrices para obtener nuestras salidas cuando estamos generando nuevos datos durante la inferencia. También podemos destilar los datos de estos modelos más grandes y entrenar modelos más pequeños con ellos. Enseñará a un modelo más pequeño a actuar como uno más grande. Y también podemos establecer algunos números a cero, algunos de estos pesos a cero, en un método llamado esparcidad. Así que aquí hay un gráfico para comparar cómo se ve un modelo más pequeño frente a un modelo cuantizado.

5. Local Model Deployment and Benchmarking

Short description:

Un modelo más pequeño con menos parámetros y un modelo cuantizado con precisión reducida mantienen alta precisión y velocidad. El despliegue local de modelos asegura control, privacidad y flexibilidad para la experimentación. Ejecutar on-premises mejora la privacidad y el control, mientras que los modelos más pequeños orientados a propósitos específicos pueden contribuir a flujos de trabajo agénticos. Explore herramientas de ajuste y evaluación de modelos como Guide LLM y LLM EvalHarness para la evaluación del rendimiento.

Un modelo más pequeño va a tener menos parámetros totales, pero un modelo cuantizado tendrá la misma cantidad de parámetros con menos precisión. Así que esta es una serie de gráficos interesante aquí que nos muestra un tamaño de modelo en un modelo que está en operaciones de punto flotante nativas de 16 aquí que luego se comprime para que sea bastante más pequeño. Pero puedes ver que aún mantiene el 99% de su precisión y es aproximadamente el doble de rápido para ejecutar con el modelo original tomando alrededor de cuatro segundos en inferencia y el modelo comprimido tomando alrededor de dos. Así que si te gustaría intentar comprimir tu propio modelo, puedes probar LLM Compressor que es un subconjunto del proyecto de código abierto VLLM.

Pero para muchos de nosotros el costo y la velocidad aún no son una restricción. Estamos usando endpoints y hardware en la nube. Pero si tienes datos sensibles es difícil ignorar la restricción. Si tienes datos sensibles, es difícil ignorar el control que obtienes sobre toda tu pila y de tus datos cuando estás ejecutando cosas localmente y on-prem, para lo cual estos modelos más pequeños son mejores.

Entonces, ¿por qué ejecutaríamos modelos locales? Bueno, uno, la privacidad de los datos y ese control, pero uno grande es nuestra capacidad de experimentar sin restricciones de infraestructura. Los modelos de lenguaje pequeños pueden servir como un sandbox para construir agentes o pipelines rag sin ese riesgo inicial de infraestructura de incurrir en mucho costo. Así que el argumento número tres para modelos más pequeños es la capacidad de ejecutar estos modelos on-prem para privacidad y control.

Available in other languages:

Check out more articles and videos

We constantly think of articles and videos that might spark Git people interest / skill us up or help building a stellar career

Construyendo un Asistente AI Activado por Voz con Javascript

JSNation 2023

21 min

Construyendo un Asistente AI Activado por Voz con Javascript

Top Content

Tejas Kumar

Author of the "Fluent React" bestselling book, software engineer with 23 years of experience, and host of the developer-loved ConTejas Code podcast.

This Talk discusses building a voice-activated AI assistant using web APIs and JavaScript. It covers using the Web Speech API for speech recognition and the speech synthesis API for text to speech. The speaker demonstrates how to communicate with the Open AI API and handle the response. The Talk also explores enabling speech recognition and addressing the user. The speaker concludes by mentioning the possibility of creating a product out of the project and using Tauri for native desktop-like experiences.

case study artificial intelligence

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

JSNation US 2024

31 min

El Flujo de Trabajo del Desarrollador Asistido por IA: Construye Más Rápido e Inteligente Hoy

Top Content

Addy Osmani

Engineering Leader Working on Google Chrome

AI is transforming software engineering by using agents to help with coding. Agents can autonomously complete tasks and make decisions based on data. Collaborative AI and automation are opening new possibilities in code generation. Bolt is a powerful tool for troubleshooting, bug fixing, and authentication. Code generation tools like Copilot and Cursor provide support for selecting models and codebase awareness. Cline is a useful extension for website inspection and testing. Guidelines for coding with agents include defining requirements, choosing the right model, and frequent testing. Clear and concise instructions are crucial in AI-generated code. Experienced engineers are still necessary in understanding architecture and problem-solving. Energy consumption insights and sustainability are discussed in the Talk.

artificial intelligence

El Ascenso del Ingeniero de IA

React Summit US 2023

30 min

El Ascenso del Ingeniero de IA

Top Content

Shawn Swyx Wang

Latent.Space Editor & Smol.ai Founder

The rise of AI engineers is driven by the demand for AI and the emergence of ML research and engineering organizations. Start-ups are leveraging AI through APIs, resulting in a time-to-market advantage. The future of AI engineering holds promising results, with a focus on AI UX and the role of AI agents. Equity in AI and the central problems of AI engineering require collective efforts to address. The day-to-day life of an AI engineer involves working on products or infrastructure and dealing with specialties and tools specific to the field.

web development artificial intelligence builders and founders future of development

IA y Desarrollo Web: ¿Exageración o Realidad?

JSNation 2023

24 min

IA y Desarrollo Web: ¿Exageración o Realidad?

Top Content

Wes Bos

Full Stack Developer, Speaker & Teacher, Co-host of Syntax.fm podcast.

This talk explores the use of AI in web development, including tools like GitHub Copilot and Fig for CLI commands. AI can generate boilerplate code, provide context-aware solutions, and generate dummy data. It can also assist with CSS selectors and regexes, and be integrated into applications. AI is used to enhance the podcast experience by transcribing episodes and providing JSON data. The talk also discusses formatting AI output, crafting requests, and analyzing embeddings for similarity.

productivity artificial intelligence

El Ingeniero de Software Nativo de AI

JSNation US 2025

35 min

El Ingeniero de Software Nativo de AI

Addy Osmani

Engineering Leader Working on Google Chrome

Software engineering is evolving with AI and VIBE coding reshaping work, emphasizing collaboration and embracing AI. The future roadmap includes transitioning from augmented to AI-first and eventually AI-native developer experiences. AI integration in coding practices shapes a collaborative future, with tools evolving for startups and enterprises. AI tools aid in design, coding, and testing, offering varied assistance. Context relevance, spec-driven development, human review, and AI implementation challenges are key focus areas. AI boosts productivity but faces verification challenges, necessitating human oversight. The impact of AI on code reviews, talent development, and problem-solving evolution in coding practices is significant.

artificial intelligence

Aplicaciones Web del Futuro con Web AI

JSNation 2024

32 min

Aplicaciones Web del Futuro con Web AI

Jason Mayes

Web AI Lead at Google.

Web AI in JavaScript allows for running machine learning models client-side in a web browser, offering advantages such as privacy, offline capabilities, low latency, and cost savings. Various AI models can be used for tasks like background blur, text toxicity detection, 3D data extraction, face mesh recognition, hand tracking, pose detection, and body segmentation. JavaScript libraries like MediaPipe LLM inference API and Visual Blocks facilitate the use of AI models. Web AI is in its early stages but has the potential to revolutionize web experiences and improve accessibility.

artificial intelligence

Workshops on related topic

IA a demanda: IA sin servidor

DevOps.js Conf 2024

163 min

IA a demanda: IA sin servidor

Top Content

Featured WorkshopFree

Nathan Disidore

En esta masterclass, discutimos los méritos de la arquitectura sin servidor y cómo se puede aplicar al espacio de la IA. Exploraremos opciones para construir aplicaciones RAG sin servidor para un enfoque más lambda-esque a la IA. A continuación, nos pondremos manos a la obra y construiremos una aplicación CRUD de muestra que te permite almacenar información y consultarla utilizando un LLM con Workers AI, Vectorize, D1 y Cloudflare Workers.

serverless architecture artificial intelligence

AI para Desarrolladores de React

React Advanced 2024

142 min

AI para Desarrolladores de React

Top Content

Featured Workshop

Eve Porcello

El conocimiento de las herramientas de AI es fundamental para preparar el futuro de las carreras de los desarrolladores de React, y la suite de herramientas de AI de Vercel es una vía de acceso accesible. En este curso, examinaremos más de cerca el Vercel AI SDK y cómo esto puede ayudar a los desarrolladores de React a construir interfaces de transmisión con JavaScript y Next.js. También incorporaremos APIs de terceros adicionales para construir y desplegar una aplicación de visualización de música.
Temas:- Creación de un Proyecto de React con Next.js- Elección de un LLM- Personalización de Interfaces de Transmisión- Construcción de Rutas- Creación y Generación de Componentes - Uso de Hooks (useChat, useCompletion, useActions, etc)

react next.js artificial intelligence

Building Full Stack Apps With Cursor

JSNation 2025

46 min

Building Full Stack Apps With Cursor

Featured Workshop

Mike Mikula

En esta masterclass cubriré un proceso repetible sobre cómo iniciar aplicaciones full stack en Cursor. Espere comprender técnicas como el uso de GPT para crear requisitos de producto, esquemas de base de datos, hojas de ruta y usarlos en notas para generar listas de verificación que guíen el desarrollo de aplicaciones. Profundizaremos más en cómo solucionar alucinaciones/errores que ocurren, indicaciones útiles para hacer que su aplicación se vea y se sienta moderna, enfoques para conectar cada capa y más. Al final, ¡espere poder ejecutar su propia aplicación full stack generada por IA en su máquina!
Por favor, encuentre las preguntas frecuentes aquí

artificial intelligence

How to 9,2x Your Development Speed with Cline

JSNation 2025

64 min

How to 9,2x Your Development Speed with Cline

Featured Workshop

Nik Pash

La forma en que escribimos código está cambiando fundamentalmente. En lugar de quedar atrapado en bucles anidados y detalles de implementación, imagine enfocarse puramente en la arquitectura y la resolución creativa de problemas mientras su programador de pares de IA maneja la ejecución. En esta masterclass práctica, te mostraré cómo aprovechar Cline (un agente de codificación autónomo que recientemente alcanzó 1M de descargas en VS Code) para acelerar drásticamente tu flujo de trabajo de desarrollo a través de una práctica que llamamos "vibe coding" - donde los humanos se enfocan en el pensamiento de alto nivel y la IA maneja la implementación.Descubrirás:Los principios fundamentales del "vibe coding" y cómo se diferencia del desarrollo tradicionalCómo diseñar soluciones a un alto nivel y hacer que la IA las implemente con precisiónDemostración en vivo: Construcción de un sistema de almacenamiento en caché de grado de producción en Go que nos ahorró $500/semanaTécnicas para usar IA para entender bases de código complejas en minutos en lugar de horasMejores prácticas para solicitar a los agentes de IA que obtengan exactamente el código que deseasErrores comunes a evitar al trabajar con asistentes de codificación de IAEstrategias para usar IA para acelerar el aprendizaje y reducir la dependencia de ingenieros seniorCómo combinar efectivamente la creatividad humana con las capacidades de implementación de IAYa sea que seas un desarrollador junior que busca acelerar tu aprendizaje o un ingeniero senior que desea optimizar tu flujo de trabajo, saldrás de esta masterclass con experiencia práctica en desarrollo asistido por IA que puedes aplicar inmediatamente a tus proyectos. A través de demostraciones de codificación en vivo y ejercicios prácticos, aprenderás cómo aprovechar Cline para escribir mejor código más rápido mientras te enfocas en lo que importa: resolver problemas reales.

artificial intelligence

La Guía del Desarrollador de React para la Ingeniería de AI

React Summit US 2025

96 min

La Guía del Desarrollador de React para la Ingeniería de AI

Featured WorkshopFree

Niall Maher

Una masterclass integral diseñada específicamente para desarrolladores de React listos para convertirse en ingenieros de AI. Aprende cómo tus habilidades existentes de React—pensamiento en componentes, gestión de estado, manejo de efectos y optimización del rendimiento—se traducen directamente en la construcción de aplicaciones de AI sofisticadas. Cubriremos todo el stack: integración de API de AI, respuestas en streaming, manejo de errores, persistencia de estado con Supabase y despliegue con Vercel.Traducción de habilidades:- Ciclo de vida de componentes → Ciclo de vida de conversación de AI- Gestión de estado → Gestión de contexto y memoria de AI- Manejo de efectos → Streaming de respuestas de AI y efectos secundarios- Optimización del rendimiento → Caché de AI y optimización de solicitudes- Patrones de prueba → Estrategias de prueba de interacción de AILo que construirás: Una herramienta completa de gestión de proyectos impulsada por AI que muestra patrones de integración de AI a nivel empresarial.

artificial intelligence

Construir agentes LLM en TypeScript con Mastra y Vercel AI SDK

React Advanced 2025

145 min

Construir agentes LLM en TypeScript con Mastra y Vercel AI SDK

Featured WorkshopFree

Eric Burel

Los LLMs no son solo motores de búsqueda sofisticados: sientan las bases para construir piezas de software autónomas e inteligentes, también conocidas como agentes.
Las empresas están invirtiendo masivamente en infraestructuras de IA generativa. Para obtener el valor de su inversión, necesitan desarrolladores que puedan sacar el máximo provecho de un LLM, y ese podrías ser tú.
Descubre la pila de TypeScript para el desarrollo basado en LLM en esta masterclass de 3 horas. Conéctate a tu modelo favorito con el Vercel AI SDK y convierte líneas de código en agentes de IA con Mastra.ai.

typescript artificial intelligence