Hacker News

Caro quadrático: a curva de custo do agente LLM

Caro quadrático: a curva de custo do agente LLM Esta análise abrangente oferece um exame detalhado de seu núcleo - Mewayz Business OS.

8 minutos de leitura

Mewayz Team

Editorial Team

Hacker News

Caro quadrático: a curva de custo do agente LLM

Os custos do agente LLM não aumentam linearmente – eles crescem quadraticamente, o que significa que à medida que seus fluxos de trabalho aumentam em complexidade e contagem de etapas, o consumo de tokens (e sua fatura) acelera muito mais rápido do que a maioria das equipes prevê. Compreender esta curva de custos não é mais opcional; é a diferença entre uma estratégia de IA lucrativa e outra que esgota silenciosamente seu orçamento.

Por que os custos do agente LLM seguem um padrão quadrático?

A causa raiz é o acúmulo de contexto. Cada vez que um agente LLM dá um passo – chamando uma ferramenta, lendo um arquivo, avaliando uma decisão – ele anexa esse resultado à sua janela de contexto em execução. Quando o agente executa a próxima etapa, ele deve processar todas as etapas anteriores novamente. Um fluxo de trabalho de dez etapas não custa dez vezes mais que uma chamada de uma única etapa; pode custar cerca de cinquenta e cinco vezes, porque você está pagando essencialmente pela soma triangular de cada interação de contexto.

Esta não é uma peculiaridade do fornecedor ou um bug temporário. É fundamental para a forma como os modelos baseados em transformadores calculam a atenção. Cada token atende a todos os tokens anteriores, o que significa que um contexto de 10.000 tokens custa aproximadamente quatro vezes mais para processar do que um de 5.000 tokens – e os agentes aumentam alegremente seus contextos em centenas de milhares de tokens em tarefas de longa execução.

O que as equipes de direcionadores de custos do mundo real subestimam consistentemente?

A maioria das projeções de custos concentra-se no óbvio: preço da API por token. Mas equipes experientes aprendem rapidamente os multiplicadores ocultos que compõem o efeito quadrático:

Loops de repetição: quando um agente falha na etapa sete de dez e tenta novamente do zero, você paga novamente por todas as sete etapas anteriores — mais a nova tentativa.

Detalhamento da chamada de ferramenta: os agentes que retornam cargas JSON completas de APIs externas, em vez de resultados resumidos, aumentam o contexto rapidamente, às vezes adicionando de 2.000 a 5.000 tokens por chamada de ferramenta.

Subagentes paralelos: a execução simultânea de vários agentes multiplica os custos na curva quadrática individual de cada agente, e não apenas no número de agentes.

Redundância de prompt do sistema: um prompt do sistema de 3.000 tokens é reinjetado a cada etapa, o que significa que um fluxo de trabalho de 20 etapas paga apenas 60.000 tokens de prompt do sistema antes que uma única linha de dados reais da tarefa seja processada.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Comece grátis →

Passagens de avaliação e reflexão: os agentes que fazem autocrítica ou verificam seus resultados adicionam passagens de inferência adicionais, cada uma pagando o custo total do contexto acumulado naquele ponto do fluxo de trabalho.

“O momento mais perigoso na adoção de agentes LLM é quando algo começa a funcionar. As equipes dimensionam o fluxo de trabalho, adicionam etapas, adicionam agentes – e só descobrem a estrutura quadrática de custos quando a fatura chega.

Como as empresas podem arquitetar uma saída para os custos quadráticos?

A boa notícia é que o dimensionamento quadrático não é inevitável — é uma escolha de design que pode ser parcialmente revertida com uma arquitetura intencional. As estratégias de mitigação mais eficazes incluem a remoção de contexto, onde os agentes são explicitamente instruídos a resumir e descartar resultados intermediários, em vez de reter os resultados brutos da ferramenta. Os padrões hierárquicos de agentes também ajudam significativamente: em vez de um agente de longa execução acumular um contexto massivo, você orquestra subagentes de curta duração, cada um lidando com uma tarefa restrita, entregando um resumo compacto e encerrando.

O cache é outra alavanca subutilizada. O cache de prompts — agora suportado pela maioria dos principais provedores de modelos — permite que você evite pagar novamente por partes estáticas do seu contexto, como prompts do sistema e documentos de referência. Para empresas que executam fluxos de trabalho automatizados de alto volume, isso por si só pode reduzir custos em 30–60%. Finalmente, o roteamento de modelos – enviando subtarefas mais simples para modelos menores e mais baratos e reservando modelos de fronteira para decisões de raciocínio pesado – nivela drasticamente a curva de custos.

O que isso significa para as empresas que tentam orçamentar as operações de IA?

O orçamento de software tradicional pressupõe que os custos aumentam de acordo com os usuários ou transações - ambos

Frequently Asked Questions

Is the quadratic LLM cost curve a problem for small businesses or only enterprise teams?

It affects businesses of every size, but small businesses often feel it first because they lack the dedicated engineering capacity to identify and fix cost-inefficient architectures quickly. A solopreneur running five automated workflows can easily generate unexpected costs at the end of the month because each workflow silently accumulates context across dozens of steps. The solution is the same regardless of scale: consolidate tooling, shorten agent context windows, and use a unified platform that gives you visibility into where tokens — and dollars — are actually going.

Does switching to a cheaper LLM model solve the quadratic cost problem?

Partially, but not fundamentally. A cheaper model reduces the per-token cost, which does lower your absolute spend. However, it does not change the shape of the curve — costs still accelerate quadratically as workflow complexity grows. Cheaper models also often require more verbose prompting and produce less reliable tool calls, which can actually increase step counts and retries, partially or fully negating the price advantage. Model routing is effective when applied strategically, but architectural changes to context length are the highest-leverage intervention.

How do I get started identifying which of my workflows are most cost-inefficient?

Start by logging the number of steps and the total token count for each agent workflow run. Divide the total tokens by the step count — if this ratio is growing significantly with each additional step (rather than staying roughly constant), you have a context accumulation problem. Look specifically at tool call outputs and check whether your agents are storing full responses or just the relevant extracted data. Most teams find that two or three workflow steps account for the majority of their token consumption, which makes remediation highly targeted and achievable.


Managing AI costs requires the same operational discipline as managing any other business system — visibility, consolidation, and the right platform underneath your workflows. Mewayz gives your business the unified operating foundation it needs to scale intelligently without runaway costs. With 207 integrated modules and a platform built for real operational complexity, you get the infrastructure that makes sustainable AI adoption possible.

Start your Mewayz journey today at app.mewayz.com and bring your entire business operation — and your AI strategy — under one roof.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Iniciar Teste Gratuito →

Ready to take action?

Inicie seu teste gratuito do Mewayz hoje

Plataforma de negócios tudo-em-um. Cartão de crédito não necessário.

Comece grátis →

14-day free trial · No credit card · Cancel anytime