Hacker News

Lotes continuos desde los primeros principios (2025)

Lotes continuos desde los primeros principios (2025) Este análisis exhaustivo de continuo ofrece un examen detallado de su cor — Mewayz Business OS.

5 lectura mínima

Mewayz Team

Editorial Team

Hacker News

Lotes continuos desde los primeros principios (2025)

El procesamiento por lotes continuo es una técnica de programación de inferencia dinámica que maximiza el rendimiento del hardware al insertar nuevas solicitudes en un lote de procesamiento activo en el momento en que se libera una ranura, lo que elimina los ciclos de computación inactivos entre trabajos. Comprenderlo desde los primeros principios revela por qué se ha convertido en la arquitectura fundamental para cada sistema de servicio de IA de alto rendimiento implementado a escala en 2025.

¿Qué es exactamente el procesamiento por lotes continuo y por qué falló el procesamiento por lotes estático?

Para apreciar el procesamiento por lotes continuo, primero debe comprender qué reemplazó. El procesamiento por lotes estático tradicional agrupa una cantidad fija de solicitudes, las procesa como una sola unidad y solo acepta nuevas solicitudes una vez que finaliza todo el lote. El defecto crítico es que los modelos de lenguaje grandes generan tokens de longitud variable: una solicitud puede finalizar después de 20 tokens, mientras que otra en el mismo lote se ejecuta con 2000. Cada GPU del clúster permanece inactiva esperando a que se complete la secuencia más larga antes de que pueda comenzar cualquier nuevo trabajo.

El procesamiento por lotes continuo, del que fue pionero el histórico artículo de 2022 "Orca: A Distributed Serving System for Transformer-Based Generative Models", rompe esta restricción por completo. Opera a nivel de iteración en lugar de a nivel de solicitud. Después de cada paso hacia adelante por el modelo, el programador verifica si alguna secuencia ha alcanzado su token de fin de secuencia. Si es así, ese espacio se recupera inmediatamente y se asigna a una solicitud en cola, sin esperas ni desperdicio. La composición del lote cambia fluidamente con cada paso de decodificación, manteniendo la utilización del hardware cerca del máximo teórico en todo momento.

¿Cómo interactúa la caché KV con el procesamiento por lotes continuo a nivel del sistema?

La caché de valores clave es la estructura de memoria que hace que la inferencia del transformador sea manejable. Para cada token procesado, el modelo calcula claves de atención y valores que deben conservarse para que los tokens posteriores no repitan cálculos redundantes. En un sistema de procesamiento por lotes estático, la asignación de caché de KV es sencilla: reserva de memoria proporcional a la longitud máxima de secuencia para cada solicitud del lote.

💡 ¿SABÍAS QUE?

Mewayz reemplaza 8+ herramientas de negocio en una plataforma

CRM · Facturación · RRHH · Proyectos · Reservas · Comercio electrónico · TPV · Análisis. Plan gratuito para siempre disponible.

Comenzar Gratis →

El procesamiento por lotes continuo complica esto de manera elegante. Debido a que las solicitudes entran y salen del lote en momentos impredecibles, el sistema no puede preasignar bloques de memoria contiguos fijos. Esta es precisamente la razón por la que PagedAttention de vLLM, introducido en 2023, se volvió inseparable del procesamiento por lotes continuo en las implementaciones de producción. PagedAttention toma prestado el modelo de paginación de memoria virtual de los sistemas operativos, dividiendo la caché KV en bloques no contiguos de igual tamaño. Las páginas de caché de una secuencia pueden estar dispersas en la memoria de la GPU del mismo modo que las páginas de memoria virtual están dispersas en la RAM física. El resultado es un desperdicio de memoria casi nulo debido a la fragmentación, lo que se traduce directamente en tamaños de lote más altos y un mayor rendimiento sin inversión adicional en hardware.

¿Cuáles son los mecanismos básicos de programación que hacen que el procesamiento por lotes continuo funcione?

Tres decisiones de programación interdependientes gobiernan cada sistema de procesamiento por lotes continuo:

Política de preferencia: cuando la presión de la memoria es alta y llega una nueva solicitud de alta prioridad, el programador debe decidir si adelanta una secuencia en ejecución de baja prioridad, cambia su caché KV a la RAM de la CPU o vuelve a calcularla desde cero más adelante. La preferencia basada en intercambio preserva el cálculo pero consume ancho de banda PCIe; El recálculo desperdicia ciclos de GPU pero mantiene la memoria limpia.

Control de admisión: el programador debe predecir si la caché KV de una nueva solicitud cabe en la memoria disponible durante toda su vida útil de generación. La subestimación provoca fallas por falta de memoria a mitad de la secuencia; la sobreestimación mata de hambre a la cola innecesariamente. Los sistemas modernos utilizan distribuciones de longitud perfiladas y reservas de reserva para equilibrar estos riesgos.

Precarga fragmentada: la fase de precarga (procesar la solicitud de entrada del usuario) está vinculada a la computación y puede monopolizar la GPU, lo que retrasa los pasos de decodificación de las secuencias que ya se están ejecutando. El prellenado fragmentado divide las indicaciones largas en un tamaño fijo

Build Your Business OS Today

From freelancers to agencies, Mewayz powers 138,000+ businesses with 207 integrated modules. Start free, upgrade when you grow.

Create Free Account →

Prueba Mewayz Gratis

Plataforma todo en uno para CRM, facturación, proyectos, RRHH y más. No se requiere tarjeta de crédito.

Comienza a gestionar tu negocio de manera más inteligente hoy.

Únete a 30,000+ empresas. Plan gratuito para siempre · No se requiere tarjeta de crédito.

¿Encontró esto útil? Compártelo.

¿Listo para poner esto en práctica?

Únete a los 30,000+ negocios que usan Mewayz. Plan gratis para siempre — no se requiere tarjeta de crédito.

Comenzar prueba gratuita →

¿Listo para tomar acción?

Comienza tu prueba gratuita de Mewayz hoy

Plataforma empresarial todo en uno. No se requiere tarjeta de crédito.

Comenzar Gratis →

Prueba gratuita de 14 días · Sin tarjeta de crédito · Cancela en cualquier momento