Hacker News

Lotes contínuos desde os primeiros princípios (2025)

Lotes contínuos desde os primeiros princípios (2025) Esta análise abrangente de ofertas contínuas um exame detalhado de seu cor - Mewayz Business OS.

5 minutos de leitura

Mewayz Team

Editorial Team

Hacker News

Lotes Contínuos a partir dos Primeiros Princípios (2025)

O lote contínuo é uma técnica de agendamento de inferência dinâmica que maximiza o rendimento do hardware inserindo novas solicitações em um lote de processamento ativo no momento em que um slot é liberado, eliminando ciclos de computação ociosos entre trabalhos. Compreendê-lo desde os primeiros princípios revela por que ele se tornou a arquitetura fundamental para todos os sistemas de serviço de IA de alto desempenho implantados em escala em 2025.

O que exatamente é lote contínuo e por que o lote estático falhou?

Para avaliar o lote contínuo, você deve primeiro entender o que ele substituiu. O lote estático tradicional agrupa um número fixo de solicitações, processa-as como uma única unidade e só aceita novas solicitações após a conclusão do lote inteiro. A falha crítica é que grandes modelos de linguagem geram tokens de comprimento variável – uma solicitação pode terminar após 20 tokens, enquanto outra no mesmo lote é executada por 2.000. Cada GPU no cluster fica ociosa aguardando a conclusão da sequência mais longa antes que qualquer novo trabalho possa começar.

O lote contínuo, lançado no artigo histórico de 2022 "Orca: um sistema de serviço distribuído para modelos generativos baseados em transformadores", quebra totalmente essa restrição. Ele opera no nível de iteração e não no nível de solicitação. Após cada passagem direta pelo modelo, o escalonador verifica se alguma sequência atingiu seu token de fim de sequência. Se tiver, esse slot é imediatamente recuperado e atribuído a uma solicitação na fila – sem espera, sem desperdício. A composição do lote muda fluidamente a cada etapa de decodificação, mantendo sempre a utilização do hardware próxima do máximo teórico.

Como o cache KV interage com lotes contínuos no nível do sistema?

O cache de valor-chave é a estrutura de memória que torna a inferência do transformador tratável. Para cada token processado, o modelo calcula chaves de atenção e valores que devem ser retidos para que os tokens subsequentes não repitam cálculos redundantes. Em um sistema de lote estático, a alocação de cache KV é simples: reserve memória proporcional ao comprimento máximo da sequência para cada solicitação no lote.

💡 VOCÊ SABIA?

A Mewayz substitui 8+ ferramentas empresariais numa única plataforma

CRM · Faturação · RH · Projetos · Reservas · eCommerce · POS · Análise. Plano gratuito para sempre disponível.

Comece grátis →

O lote contínuo complica isso de maneira elegante. Como as solicitações entram e saem do lote em horários imprevisíveis, o sistema não pode pré-alocar blocos de memória contíguos fixos. É exatamente por isso que o PagedAttention do vLLM — introduzido em 2023 — tornou-se inseparável do lote contínuo em implantações de produção. PagedAttention empresta o modelo de paginação de memória virtual dos sistemas operacionais, dividindo o cache KV em blocos não contíguos de tamanho igual. As páginas de cache de uma sequência podem ser espalhadas pela memória da GPU da mesma forma que as páginas da memória virtual estão espalhadas pela RAM física. O resultado é quase zero desperdício de memória devido à fragmentação, o que se traduz diretamente em tamanhos de lote maiores e maior rendimento sem investimento adicional em hardware.

Quais são os principais mecanismos de agendamento que fazem o lote contínuo funcionar?

Três decisões de agendamento interdependentes governam todo sistema de lote contínuo:

Política de preempção: quando a pressão da memória é alta e uma nova solicitação de alta prioridade chega, o escalonador deve decidir se deseja antecipar uma sequência de baixa prioridade em execução, trocar seu cache KV para CPU RAM ou recomputá-la do zero mais tarde. A preempção baseada em swap preserva a computação, mas consome largura de banda PCIe; a recomputação desperdiça ciclos de GPU, mas mantém a memória limpa.

Controle de admissão: O escalonador deve prever se o cache KV de uma nova solicitação caberá na memória disponível durante todo o seu tempo de vida de geração. Subestimar causa falhas de falta de memória no meio da sequência; superestimar deixa a fila desnecessariamente faminta. Os sistemas modernos utilizam distribuições de comprimento perfiladas e buffers de reserva para equilibrar esses riscos.

Pré-preenchimento fragmentado: A fase de pré-preenchimento – processamento do prompt de entrada do usuário – é limitada pela computação e pode monopolizar a GPU, atrasando as etapas de decodificação para sequências já em execução. O pré-preenchimento fragmentado divide prompts longos em tamanhos fixos

Streamline Your Business with Mewayz

Mewayz brings 207 business modules into one platform — CRM, invoicing, project management, and more. Join 138,000+ users who simplified their workflow.

Start Free Today →

Experimente o Mewayz Gratuitamente

Plataforma tudo-em-um para CRM, faturação, projetos, RH e muito mais. Cartão de crédito não necessário.

Comece a gerenciar seu negócio de forma mais inteligente hoje

Присоединяйтесь к 30,000+ компаниям. Бесплатный тариф навсегда · Без банковской карты.

Pronto para colocar isto em prática?

Junte-se a 30,000+ empresas a usar o Mewayz. Plano gratuito para sempre — cartão de crédito não necessário.

Iniciar Teste Gratuito →

Pronto para agir?

Inicie seu teste gratuito do Mewayz hoje

Plataforma de negócios tudo-em-um. Cartão de crédito não necessário.

Comece grátis →

Teste gratuito de 14 dias · Sem cartão de crédito · Cancele a qualquer momento