Hacker News

Dosaggio continuo dai principi primi (2025)

Dosaggio continuo dai principi primi (2025) Questa analisi completa delle offerte continue offre un esame dettagliato del suo cor: Mewayz Business OS.

February 23, 2026 4 minimo letto

Mewayz Team

Editorial Team

Hacker News

Batch continuo dai primi principi (2025)

Il batch continuo è una tecnica di pianificazione dell'inferenza dinamica che massimizza il throughput dell'hardware inserendo nuove richieste in un batch di elaborazione attivo nel momento in cui uno slot si libera, eliminando i cicli di elaborazione inattivi tra i processi. Comprenderlo dai principi fondamentali rivela perché è diventata l’architettura fondamentale per ogni sistema di servizio AI ad alte prestazioni distribuito su larga scala nel 2025.

Cos'è esattamente il batch continuo e perché il batch statico non è riuscito?

Per apprezzare il batching continuo bisogna prima capire cosa ha sostituito. Il batch statico tradizionale raggruppa insieme un numero fisso di richieste, le elabora come una singola unità e accetta nuove richieste solo al termine dell'intero batch. Il difetto critico è che i modelli linguistici di grandi dimensioni generano token di lunghezza variabile: una richiesta potrebbe terminare dopo 20 token mentre un'altra nello stesso batch viene eseguita per 2.000. Ogni GPU nel cluster resta inattiva in attesa che venga completata la sequenza più lunga prima che possa iniziare qualsiasi nuovo lavoro.

Il batching continuo, introdotto per la prima volta nel documento storico del 2022 "Orca: A Distributed Serving System for Transformer-Based Generative Models", rompe completamente questo vincolo. Funziona a livello di iterazione piuttosto che a livello di richiesta. Dopo ogni singolo passaggio in avanti attraverso il modello, lo scheduler controlla se qualche sequenza ha raggiunto il token di fine sequenza. In tal caso, lo slot viene immediatamente recuperato e assegnato a una richiesta in coda: senza attese e senza sprechi. La composizione del batch cambia in modo fluido ad ogni passaggio di decodifica, mantenendo l'utilizzo dell'hardware sempre vicino al massimo teorico.

Come interagisce la cache KV con il batch continuo a livello di sistema?

La cache dei valori-chiave è la struttura della memoria che rende trattabile l'inferenza del trasformatore. Per ogni token elaborato, il modello calcola le chiavi e i valori di attenzione che devono essere conservati in modo che i token successivi non ripetano calcoli ridondanti. In un sistema di batching statico, l'allocazione della cache KV è semplice: riservare memoria proporzionale alla lunghezza massima della sequenza per ogni richiesta nel batch.

💡 LO SAPEVI?

Mewayz sostituisce più di 8 strumenti business in un'unica piattaforma

CRM · Fatturazione · HR · Progetti · Prenotazioni · eCommerce · POS · Analisi. Piano gratuito per sempre disponibile.

Inizia gratis →

Il dosaggio continuo complica tutto questo in modo elegante. Poiché le richieste entrano ed escono dal batch in momenti imprevedibili, il sistema non può preallocare blocchi di memoria contigui fissi. Questo è esattamente il motivo per cui PagedAttention di vLLM, introdotto nel 2023, è diventato inseparabile dal batching continuo nelle distribuzioni di produzione. PagedAttention prende in prestito il modello di paging della memoria virtuale dai sistemi operativi, dividendo la cache KV in blocchi non contigui di uguale dimensione. Le pagine della cache di una sequenza possono essere sparse nella memoria della GPU proprio come le pagine della memoria virtuale sono sparse nella RAM fisica. Il risultato è uno spreco di memoria vicino allo zero dovuto alla frammentazione, che si traduce direttamente in batch di dimensioni più elevate e throughput più elevato senza investimenti hardware aggiuntivi.

Quali sono i principali meccanismi di pianificazione che rendono possibile il funzionamento in batch continuo?

Tre decisioni di programmazione interdipendenti governano ogni sistema di dosaggio continuo:

Politica di prelazione: quando la pressione della memoria è elevata e arriva una nuova richiesta ad alta priorità, lo scheduler deve decidere se anticipare una sequenza in esecuzione a bassa priorità, scambiare la cache KV con la RAM della CPU o ricalcolarla da zero in un secondo momento. La prelazione basata sullo swap preserva il calcolo ma consuma la larghezza di banda PCIe; il ricalcolo spreca cicli GPU ma mantiene pulita la memoria.

Controllo di ammissione: lo scheduler deve prevedere se la cache KV di una nuova richiesta si adatterà alla memoria disponibile durante l'intera durata della generazione. La sottovalutazione causa arresti anomali della memoria insufficiente a metà sequenza; sopravvalutare affama inutilmente la coda. I sistemi moderni utilizzano distribuzioni di lunghezza profilate e buffer di prenotazione per bilanciare questi rischi.

Precompilazione in blocchi: la fase di precompilazione, ovvero l'elaborazione del prompt di input dell'utente, è legata al calcolo e può monopolizzare la GPU, ritardando i passaggi di decodifica per le sequenze già in esecuzione. La precompilazione in blocchi suddivide i prompt lunghi in dimensioni fisse

Ready to Simplify Your Operations?

Whether you need CRM, invoicing, HR, or all 207 modules — Mewayz has you covered. 138K+ businesses already made the switch.

Get Started Free →

Prova Mewayz Gratis

Piattaforma tutto-in-uno per CRM, fatturazione, progetti, HR e altro. Nessuna carta di credito richiesta.

Inizia gratis Prova Demo

Inizia a gestire la tua azienda in modo più intelligente oggi.

Unisciti a 30,000+ aziende. Piano gratuito per sempre · Nessuna carta di credito richiesta.

Inizia gratis → Guarda la dimostrazione

Lo hai trovato utile? Condividilo.

X / Twitter LinkedIn Facebook WhatsApp

Pronto a metterlo in pratica?

Unisciti a 30,000+ aziende che utilizzano Mewayz. Piano gratuito per sempre — nessuna carta di credito richiesta.

Inizia prova gratuita →

Inizia la tua prova gratuita Mewayz oggi

Piattaforma aziendale tutto-in-uno. Nessuna carta di credito richiesta.

Inizia gratis →

Prova gratuita di 14 giorni · Nessuna carta di credito · Disdici quando vuoi

Dosaggio continuo dai principi primi (2025)

Ready to Simplify Your Operations?

Prova Mewayz Gratis

Inizia a gestire la tua azienda in modo più intelligente oggi.

Pronto a metterlo in pratica?

Articoli correlati

Inizia la tua prova gratuita Mewayz oggi

Prova Mewayz — Live

Aspetta, non andartene a mani vuote!

Controlla la tua casella di posta!

Dosaggio continuo dai principi primi (2025)

Related Posts

Ready to Simplify Your Operations?

Prova Mewayz Gratis

Inizia a gestire la tua azienda in modo più intelligente oggi.

Pronto a metterlo in pratica?

Articoli correlati

Inizia la tua prova gratuita Mewayz oggi

Cambia lingua

Contattaci

Aspetta, non andartene a mani vuote!

Controlla la tua casella di posta!