Hacker News

Continu batchen vanuit de eerste principes (2025)

Continu batchen vanuit de eerste principes (2025) Deze uitgebreide analyse van continue biedt gedetailleerd onderzoek van zijn cor — Mewayz Business OS.

4 min gelezen

Mewayz Team

Editorial Team

Hacker News

Continu batchen vanuit de eerste principes (2025)

Continuous batching is een dynamische inferentieplanningstechniek die de hardwaredoorvoer maximaliseert door nieuwe verzoeken in een actieve verwerkingsbatch in te voegen op het moment dat er een slot vrijkomt, waardoor inactieve rekencycli tussen taken worden geëlimineerd. Als je het vanuit de eerste principes begrijpt, wordt duidelijk waarom het de fundamentele architectuur is geworden voor elk krachtig AI-bedieningssysteem dat in 2025 op grote schaal wordt ingezet.

Wat is continu batchen precies en waarom mislukte statisch batchen?

Om continue batching te waarderen, moet u eerst begrijpen wat het vervangt. Traditionele statische batching groepeert een vast aantal verzoeken bij elkaar, verwerkt ze als één geheel en accepteert pas nieuwe verzoeken nadat de hele batch is voltooid. Het kritieke minpunt is dat grote taalmodellen tokens van variabele lengte genereren: het ene verzoek kan na twintig tokens worden beëindigd, terwijl een ander in dezelfde batch voor 2000 tokens wordt uitgevoerd. Elke GPU in het cluster wacht inactief tot de langste reeks is voltooid voordat er met nieuw werk kan worden begonnen.

Continu batchen, ontwikkeld in het baanbrekende artikel uit 2022 "Orca: A Distributed Serving System for Transformer-Based Genative Models", doorbreekt deze beperking volledig. Het werkt op iteratieniveau in plaats van op verzoekniveau. Na elke voorwaartse doorgang door het model controleert de planner of een reeks het einde-van-reeks-token heeft bereikt. Als dat het geval is, wordt dat slot onmiddellijk teruggevorderd en toegewezen aan een verzoek in de wachtrij: geen wachttijden, geen verspilling. De batchsamenstelling verandert vloeiend bij elke decodeerstap, waardoor het hardwaregebruik te allen tijde dicht bij het theoretische maximum blijft.

Hoe werkt de KV-cache samen met continue batching op systeemniveau?

De sleutelwaardecache is de geheugenstructuur die de gevolgtrekking van transformatoren hanteerbaar maakt. Voor elk verwerkt token berekent het model aandachtssleutels en -waarden die moeten worden behouden, zodat volgende tokens geen redundante berekeningen herhalen. In een statisch batchingsysteem is de toewijzing van KV-cache eenvoudig: reserveer geheugen evenredig aan de maximale reekslengte voor elk verzoek in de batch.

💡 WIST JE DAT?

Mewayz vervangt 8+ zakelijke tools in één platform

CRM · Facturatie · HR · Projecten · Boekingen · eCommerce · POS · Analytics. Voor altijd gratis abonnement beschikbaar.

Begin gratis →

Continu batchen maakt dit op elegante wijze ingewikkeld. Omdat verzoeken op onvoorspelbare tijdstippen de batch binnenkomen en verlaten, kan het systeem geen vaste aaneengesloten geheugenblokken vooraf toewijzen. Dit is precies de reden waarom vLLM's PagedAttention – geïntroduceerd in 2023 – onlosmakelijk verbonden werd met continue batching in productie-implementaties. PagedAttention leent het pagingmodel voor virtueel geheugen van besturingssystemen, waarbij de KV-cache wordt verdeeld in niet-aaneengesloten blokken van gelijke grootte. De cachepagina's van een reeks kunnen verspreid zijn over het GPU-geheugen, net zoals de virtuele geheugenpagina's verspreid zijn over het fysieke RAM. Het resultaat is vrijwel geen geheugenverspilling door fragmentatie, wat zich direct vertaalt in hogere batchgroottes en hogere doorvoer zonder extra hardware-investeringen.

Wat zijn de belangrijkste planningsmechanismen die ervoor zorgen dat continu batchen werkt?

Drie onderling afhankelijke planningsbeslissingen bepalen elk continu batchingsysteem:

Voorrangsbeleid: Wanneer de geheugendruk hoog is en er een nieuw verzoek met hoge prioriteit binnenkomt, moet de planner beslissen of hij een lopende reeks met lage prioriteit wil overnemen, de KV-cache naar CPU-RAM wil omwisselen of deze later helemaal opnieuw moet berekenen. Op swap gebaseerde voorkoop behoudt de rekenkracht, maar verbruikt PCIe-bandbreedte; herberekening verspilt GPU-cycli, maar houdt het geheugen schoon.

Toelatingscontrole: De planner moet voorspellen of de KV-cache van een nieuw verzoek gedurende de volledige levensduur van de aanvraag in het beschikbare geheugen zal passen. Onderschatting zorgt ervoor dat er geen geheugen meer is halverwege de reeks; overschatten verhongert de wachtrij onnodig. Moderne systemen maken gebruik van geprofileerde lengteverdelingen en reserveringsbuffers om deze risico's in evenwicht te brengen.

Gefragmenteerde prefill: De prefill-fase, waarbij de invoerprompt van de gebruiker wordt verwerkt, is computergebonden en kan de GPU monopoliseren, waardoor de decodeerstappen voor reeds actieve reeksen worden vertraagd. Gedeeltelijke voorinvulling splitst lange aanwijzingen op in vaste grootte

Build Your Business OS Today

From freelancers to agencies, Mewayz powers 138,000+ businesses with 207 integrated modules. Start free, upgrade when you grow.

Create Free Account →

Probeer Mewayz Gratis

Alles-in-één platform voor CRM, facturatie, projecten, HR & meer. Geen creditcard nodig.

Begin vandaag nog slimmer met het beheren van je bedrijf.

Sluit je aan bij 30,000+ bedrijven. Voor altijd gratis abonnement · Geen creditcard nodig.

Klaar om dit in de praktijk te brengen?

Sluit je aan bij 30,000+ bedrijven die Mewayz gebruiken. Voor altijd gratis abonnement — geen creditcard nodig.

Start Gratis Proefperiode →

Klaar om actie te ondernemen?

Start vandaag je gratis Mewayz proefperiode

Alles-in-één bedrijfsplatform. Geen creditcard vereist.

Begin gratis →

14 dagen gratis proefperiode · Geen creditcard · Altijd opzegbaar