Hacker News

Dyrt kvadratisk: LLM Agent Cost Curve

Dyrt kvadratisk: LLM Agent Cost Curve Denne omfattende analyse af dyrt tilbyder en detaljeret undersøgelse af dens kor — Mewayz Business OS.

7 min læst

Mewayz Team

Editorial Team

Hacker News

Dyrt kvadratisk: LLM Agent Cost Curve

LLM-agentomkostninger skaleres ikke lineært – de vokser kvadratisk, hvilket betyder, at efterhånden som dine arbejdsgange vokser i kompleksitet og antal skridt, accelererer dit tokenforbrug (og din regning) langt hurtigere, end de fleste teams forventer. Det er ikke længere valgfrit at forstå denne omkostningskurve; det er forskellen mellem en rentabel AI-strategi og en, der stille og roligt bløder dit budget ud.

Hvorfor følger LLM-agentomkostninger et kvadratisk mønster?

Grundårsagen er kontekstakkumulering. Hver gang en LLM-agent tager et skridt - kalder et værktøj, læser en fil, evaluerer en beslutning - tilføjer den dette resultat til dets kørende kontekstvindue. Når agenten tager sit næste trin, skal den behandle alle tidligere trin igen. En ti-trins arbejdsgang koster ikke ti gange et enkelt-trins opkald; det kan koste tættere på femoghalvtreds gange, fordi du i bund og grund betaler for den trekantede sum af hver kontekstinteraktion.

Dette er ikke en leverandøregenskab eller en midlertidig fejl. Det er grundlæggende for, hvordan transformatorbaserede modeller beregner opmærksomhed. Hvert token passer på hvert tidligere token, hvilket betyder, at en kontekst på 10.000 tokens koster cirka fire gange så meget at behandle som en af ​​5.000 tokens - og agenter vokser gladeligt deres kontekster til hundredtusindvis af tokens på tværs af langvarige opgaver.

Hvad undervurderer de virkelige verdens omkostningsdrivende teams konsekvent?

De fleste omkostningsfremskrivninger fokuserer på det åbenlyse: API-pris pr. token. Men erfarne teams lærer hurtigt de skjulte multiplikatorer, der forstærker den kvadratiske effekt:

Gentry loops: Når en agent fejler i trin syv af ti og prøver igen fra bunden, betaler du for alle syv tidligere trin igen - plus det nye forsøg.

Ordlyd af værktøjskald: Agenter, der returnerer fulde JSON-nyttelaster fra eksterne API'er i stedet for opsummerede resultater, blæser konteksten hurtigt op og tilføjer nogle gange 2.000-5.000 tokens pr. værktøjskald.

Parallelle subagenter: Kørsel af flere agenter samtidigt multiplicerer omkostningerne på tværs af hver agents individuelle kvadratiske kurve, ikke kun på tværs af antallet af agenter.

Systempromptredundans: En systemprompt på 3.000 tokens genindsættes ved hvert trin, hvilket betyder, at en 20-trins arbejdsgang betaler for 60.000 tokens af systemprompt alene, før en enkelt linje af faktiske opgavedata behandles.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start gratis →

Evaluering og refleksion passerer: Agenter, der selvkritikerer eller verificerer deres output, tilføjer hele yderligere konklusioner, der hver betaler de fulde akkumulerede kontekstomkostninger på det tidspunkt i arbejdsgangen.

"Det farligste øjeblik i LLM-agentadoption er, når noget begynder at fungere. Teams skalerer arbejdsgangen, tilføjer trin, tilføjer agenter - og opdager først den kvadratiske omkostningsstruktur, når fakturaen ankommer. På det tidspunkt er arkitekturen allerede indbygget."

Hvordan kan virksomheder bygge deres vej ud af kvadratiske omkostninger?

Den gode nyhed er, at kvadratisk skalering ikke er uundgåelig - det er et designvalg, der delvist kan vendes med tilsigtet arkitektur. De mest effektive afbødningsstrategier omfatter kontekstbeskæring, hvor agenter udtrykkeligt instrueres i at opsummere og kassere mellemresultater i stedet for at beholde råværktøjsoutput. Hierarkiske agentmønstre hjælper også væsentligt: ​​I stedet for at én langvarig agent akkumulerer en massiv kontekst, orkestrerer du kortlivede subagenter, der hver håndterer en snæver opgave, afleverer et kompakt resumé og afslutter.

Caching er et andet underudnyttet håndtag. Prompt-caching - nu understøttet af de fleste større modeludbydere - giver dig mulighed for at undgå at betale igen for statiske dele af din kontekst, såsom systemprompter og referencedokumenter. For virksomheder, der kører automatiserede arbejdsgange i store mængder, kan dette alene reducere omkostningerne med 30-60 %. Endelig flader modelrouting - at sende enklere delopgaver til mindre, billigere modeller, mens grænsemodeller reserveres til ræsonnementtunge beslutninger - omkostningskurven dramatisk.

Hvad betyder dette for virksomheder, der forsøger at budgettere AI-drift?

Traditionel softwarebudgettering forudsætter, at omkostninger skaleres med brugere eller transaktioner - både li

Frequently Asked Questions

Is the quadratic LLM cost curve a problem for small businesses or only enterprise teams?

It affects businesses of every size, but small businesses often feel it first because they lack the dedicated engineering capacity to identify and fix cost-inefficient architectures quickly. A solopreneur running five automated workflows can easily generate unexpected costs at the end of the month because each workflow silently accumulates context across dozens of steps. The solution is the same regardless of scale: consolidate tooling, shorten agent context windows, and use a unified platform that gives you visibility into where tokens — and dollars — are actually going.

Does switching to a cheaper LLM model solve the quadratic cost problem?

Partially, but not fundamentally. A cheaper model reduces the per-token cost, which does lower your absolute spend. However, it does not change the shape of the curve — costs still accelerate quadratically as workflow complexity grows. Cheaper models also often require more verbose prompting and produce less reliable tool calls, which can actually increase step counts and retries, partially or fully negating the price advantage. Model routing is effective when applied strategically, but architectural changes to context length are the highest-leverage intervention.

How do I get started identifying which of my workflows are most cost-inefficient?

Start by logging the number of steps and the total token count for each agent workflow run. Divide the total tokens by the step count — if this ratio is growing significantly with each additional step (rather than staying roughly constant), you have a context accumulation problem. Look specifically at tool call outputs and check whether your agents are storing full responses or just the relevant extracted data. Most teams find that two or three workflow steps account for the majority of their token consumption, which makes remediation highly targeted and achievable.


Managing AI costs requires the same operational discipline as managing any other business system — visibility, consolidation, and the right platform underneath your workflows. Mewayz gives your business the unified operating foundation it needs to scale intelligently without runaway costs. With 207 integrated modules and a platform built for real operational complexity, you get the infrastructure that makes sustainable AI adoption possible.

Start your Mewayz journey today at app.mewayz.com and bring your entire business operation — and your AI strategy — under one roof.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Fandt du dette nyttigt? Del det.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start gratis prøveperiode →

Klar til at handle?

Start din gratis Mewayz prøveperiode i dag

Alt-i-ét forretningsplatform. Ingen kreditkort nødvendig.

Start gratis →

14-day free trial · No credit card · Cancel anytime