Hacker News

Lot continu des dels primers principis (2025)

Lot continu des dels primers principis (2025) Aquesta anàlisi exhaustiva del continu ofereix un examen detallat dels seus components bàsics i implicacions més àmplies. Àrees clau d'enfocament La discussió se centra en: Mecanismes bàsics i...

11 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Lots continus a partir de First Principles (2025)

El lot continu és una tècnica de programació d'inferències dinàmiques que maximitza el rendiment del maquinari inserint noves sol·licituds en un lot de processament actiu en el moment en què s'allibera una ranura, eliminant els cicles de càlcul inactius entre tasques. Entendre'l des dels primers principis revela per què s'ha convertit en l'arquitectura fonamental per a cada sistema de servei d'IA d'alt rendiment desplegat a escala el 2025.

Què és exactament el lot continu i per què ha fallat el lot estàtic?

Per apreciar el lot continu, primer heu d'entendre què ha substituït. El lot estàtic tradicional agrupa un nombre fix de sol·licituds, les processa com a unitat única i només accepta noves sol·licituds un cop acaba tot el lot. El defecte crític és que els grans models de llenguatge generen fitxes de longitud variable: una sol·licitud pot acabar després de 20 fitxes mentre que una altra del mateix lot s'executa per a 2.000. Totes les GPU del clúster es troben inactius esperant que es completi la seqüència més llarga abans de començar qualsevol treball nou.

El lot continu, pioner en el document històric de 2022 "Orca: A Distributed Serving System for Transformer-Based Generative Models", trenca aquesta limitació completament. Funciona al nivell d'iteració en lloc del nivell de sol·licitud. Després de cada pas cap endavant pel model, el planificador comprova si alguna seqüència ha arribat al seu testimoni de final de seqüència. Si és així, aquesta ranura es recupera immediatament i s'assigna a una sol·licitud en cua: sense espera, sense malbaratament. La composició del lot canvia de manera fluida amb cada pas de descodificació, mantenint la utilització del maquinari a prop del màxim teòric en tot moment.

Com interactua la memòria cau KV amb el lot continu a nivell de sistema?

La memòria cau de valor-clau és l'estructura de memòria que fa que la inferència del transformador sigui manejable. Per a cada testimoni processat, el model calcula les claus d'atenció i els valors que s'han de conservar perquè els testimonis posteriors no repeteixin el càlcul redundant. En un sistema de lots estàtic, l'assignació de memòria cau KV és senzilla: reserva de memòria proporcional a la longitud màxima de la seqüència per a cada sol·licitud del lot.

Els lots continus complica això de manera elegant. Com que les sol·licituds entren i surten del lot en moments impredictibles, el sistema no pot assignar prèviament blocs de memòria contigus fixos. Precisament per això, PagedAttention de vLLM, introduït el 2023, es va fer inseparable del lot continu en els desplegaments de producció. PagedAttention pren prestat el model de paginació de memòria virtual dels sistemes operatius, dividint la memòria cau KV en blocs no contigus de la mateixa mida. Les pàgines de memòria cau d'una seqüència es poden escampar per la memòria de la GPU de la mateixa manera que les pàgines de memòria virtual es troben disperses per la memòria RAM física. El resultat és gairebé zero malbaratament de memòria per fragmentació, que es tradueix directament en mides de lots més grans i un rendiment més elevat sense inversió addicional en maquinari.

Quins són els mecanismes de programació bàsics que fan que funcioni el lot continu?

Tres decisions de programació interdependents regeixen cada sistema de lots continus:

  • Política de preempció: quan la pressió de la memòria és alta i arriba una nova sol·licitud d'alta prioritat, el planificador ha de decidir si anticipa una seqüència de baixa prioritat en execució, intercanvia la seva memòria cau KV per la RAM de la CPU o la torna a calcular des de zero més tard. La preempció basada en l'intercanvi conserva el càlcul però consumeix ample de banda PCIe; el recalcul malgasta els cicles de la GPU però manté la memòria neta.
  • Control d'admissió: el planificador ha de predir si la memòria cau KV d'una sol·licitud nova s'adaptarà a la memòria disponible durant tota la seva generació. Subestimar les causes de fallades de memòria a mitja seqüència; sobreestimar fa fam la cua innecessàriament. Els sistemes moderns utilitzen distribucions de longitud perfilades i buffers de reserva per equilibrar aquests riscos.
  • Emplenat prèviament fragmentat: la fase de preemplenament (processament de la sol·licitud d'entrada de l'usuari) està vinculada al càlcul i pot monopolitzar la GPU, retardant els passos de descodificació de les seqüències que ja s'executen. L'emplenament anticipat fragmentat divideix les indicacions llargues en fragments de mida fixa entrellaçats amb iteracions de descodificació, reduint la latència del temps fins al primer testimoni per als usuaris concurrents a costa d'un rendiment d'emplenament preliminar en brut lleugerament inferior.
  • Cua de prioritat: les sol·licituds de desplegaments empresarials segmenten per nivell de SLA. Les trucades d'API sensibles a la latència anticipen els treballs per lots de millor esforç. Sense aquesta capa, una única tasca de resum de documents llargs pot degradar l'experiència interactiva de l'usuari durant centenars de sessions simultànias.

"El lot continu no només millora el rendiment, sinó que reestructura el model econòmic d'inferència d'IA. Mantenint les GPU ocupades amb granularitat d'iteració en lloc de sol·licitar granularitat, els operadors aconsegueixen una utilització efectiva entre 5 i 10 vegades més alta amb un maquinari idèntic, que és la palanca més gran disponible per reduir els costos de servei per testimoni."

205.

Com mesuren els desplegaments del món real els guanys de rendiment?

Els resultats de referència d'Anyscale, juntament amb les reproduccions independents de diverses famílies de models el 2024, mostren constantment un lot continu que ofereix un rendiment entre 23 i 36 vegades superior en comparació amb el lot estàtic ingenu sota patrons de trànsit realistes. Els guanys són més pronunciats quan la variació de la longitud de la sol·licitud és alta, exactament les condicions que caracteritzen les càrregues de treball d'IA conversacional de producció on les consultes dels usuaris van des de sol·licituds de tres paraules fins a enviaments de documents de diverses pàgines.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

La latència explica una història més matisada. El temps fins al primer testimoni millora dràsticament perquè el sistema ja no espera que es munti un lot estàtic complet abans de començar l'emplenament previ. La latència entre testimonis es manté estable amb una càrrega moderada, però es degrada amb gràcia sota saturació en lloc de col·lapsar-se, perquè el planificador continua progressant en totes les seqüències actives fins i tot quan la cua creix profunda. Per a les empreses que creen funcions d'IA en temps real, aquesta graciosa corba de degradació sovint és més important comercialment que les xifres de rendiment màxim.

Com poden les empreses aplicar els principis de lots continus més enllà de la inferència d'IA?

La visió arquitectònica que hi ha darrere del lot continu: recuperar recursos amb la màxima granularitat possible i reassignar-los immediatament en comptes d'esperar que s'acabi una unitat de treball de gra gruixut, és un principi general per a qualsevol sistema que gestioni càrregues de treball heterogènies. Els sistemes operatius empresarials s'enfronten al mateix repte: tasques de durades molt diferents que competeixen per la capacitat de processament compartida entre els fluxos de treball de CRM, l'automatització del màrqueting, els canals d'anàlisi i les operacions de comerç electrònic.

Mewayz aplica aquesta filosofia al seu sistema operatiu empresarial de 207 mòduls, encaminant de manera dinàmica les càrregues de treball operatives a través d'una plataforma integrada utilitzada per 138.000 empreses a tot el món. En lloc d'obligar els equips a esperar cicles d'informes per lots, cues d'aprovació seqüencials o lliuraments d'eines separades, Mewayz processa els esdeveniments empresarials de manera contínua, alimentant les sortides completades immediatament als mòduls posteriors de la mateixa manera que un programador de lots continus alimenta les ranures de GPU alliberades a la cua de sol·licituds. El resultat és una millora mesurable del rendiment de les operacions empresarials reals, no només els punts de referència.

Preguntes més freqüents

El lot continu és el mateix que el lot dinàmic a TensorFlow Serving?

No. El lot dinàmic de TensorFlow Serving agrupa les sol·licituds en lots de mida variable en funció de les finestres de temps i la profunditat de la cua, però encara processa cada lot de manera atòmica des del principi fins al final. El lot continu funciona a l'etapa de generació de fitxes individuals, la qual cosa permet que la composició del lot canviï cada pas endavant. La diferència de granularitat és el motiu pel qual el lot continu aconsegueix un rendiment significativament més elevat per a càrregues de treball de generació autoregressiva específicament.

Els lots continus requereixen canvis a l'arquitectura del model?

Les arquitectures de transformadors estàndard no requereixen modificacions. El lot continu s'implementa completament a la capa de publicació mitjançant canvis al programador d'inferències, al gestor de memòria i al nucli d'atenció. Tanmateix, algunes optimitzacions, especialment PagedAttention, requereixen nuclis CUDA personalitzats que substitueixin les implementacions d'atenció estàndard, per això els marcs de lots continus de qualitat de producció com vLLM i TensorRT-LLM no són reemplaçaments incorporats per a servidors d'inferència d'ús general.

Quines limitacions de maquinari limiten l'eficàcia del lot continu?

L'amplada de banda de la GPU HBM i la capacitat total de la VRAM són les principals limitacions. Les memòria cau KV més grans requereixen més memòria, la qual cosa limita la concurrència màxima. Les interconnexions d'ample de banda elevat (NVLink, Infiniband) esdevenen crítiques per als desplegaments de diverses GPU on la memòria cau KV s'ha de distribuir entre dispositius. En entorns amb restriccions de memòria, la quantificació agressiva dels valors de memòria cau KV (des de FP16 fins a INT8 o INT4) recupera la capacitat a costa d'una petita degradació de la precisió acceptable per a la majoria d'aplicacions comercials.


Ja sigui que esteu creant funcions basades en IA o orquestrant operacions empresarials complexes a tota la vostra organització, el principi subjacent és idèntic: elimineu el temps inactiu, recupereu la capacitat de manera contínua i processeu més treball amb els recursos que ja teniu. Mewayz posa en pràctica aquest principi a través de 207 mòduls integrats, des de CRM i comerç electrònic fins a analítiques i col·laboració en equip, a partir de 19 dòlars al mes.

Estàs a punt per gestionar la teva empresa a màxim rendiment? Comença la teva prova gratuïta a app.mewayz.com i descobreix com 138.000 empreses funcionen de manera més intel·ligent amb Mewayz.

.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime