Hacker News

Дороговато квадратично: кривая стоимости агента LLM

Дороговато квадратично: кривая стоимости агента LLM Этот комплексный анализ дорого предлагает детальное изучение ее ядра — Mewayz Business OS.

1 минута чтения

Mewayz Team

Editorial Team

Hacker News

Дороговато квадратично: кривая стоимости агента LLM

Затраты агентов LLM не масштабируются линейно — они растут квадратично, а это означает, что по мере того, как ваши рабочие процессы становятся сложнее и увеличиваются количество шагов, потребление ваших токенов (и ваши счета) ускоряются гораздо быстрее, чем ожидает большинство команд. Понимание этой кривой затрат больше не является обязательным; в этом разница между прибыльной стратегией ИИ и стратегией, которая незаметно истощает ваш бюджет.

Почему затраты на агентов LLM имеют квадратичную закономерность?

Основная причина – накопление контекста. Каждый раз, когда агент LLM делает шаг — вызывает инструмент, читает файл, оценивает решение — он добавляет этот результат в свое рабочее контекстное окно. Когда агент делает следующий шаг, он должен снова обработать все предыдущие шаги. Десятиэтапный рабочий процесс не стоит в десять раз дороже одноэтапного вызова; это может стоить примерно в пятьдесят пять раз больше, потому что вы, по сути, платите за треугольную сумму каждого контекстного взаимодействия.

Это не причуда поставщика или временная ошибка. Это фундаментально важно для того, как модели на основе трансформаторов вычисляют внимание. Каждый токен обрабатывает каждый предыдущий токен, а это означает, что обработка контекста из 10 000 токенов обходится примерно в четыре раза дороже, чем обработка одного из 5 000 токенов, и агенты с радостью расширяют свои контексты до сотен тысяч токенов в рамках долгосрочных задач.

Какие реальные факторы, определяющие затраты, команды постоянно недооценивают?

Большинство прогнозов затрат сосредоточены на очевидном: цене API за токен. Но опытные команды быстро усваивают скрытые множители, которые усугубляют квадратичный эффект:

Циклы повторных попыток: если агент терпит неудачу на седьмом шаге из десяти и повторяет попытку с нуля, вы снова платите за все семь предыдущих шагов — плюс новую попытку.

Подробность вызова инструмента. Агенты, которые возвращают полные полезные данные JSON из внешних API, а не обобщенные результаты, быстро раздувают контекст, иногда добавляя 2000–5000 токенов на каждый вызов инструмента.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Начать бесплатно →

Параллельные субагенты: одновременная работа нескольких агентов умножает затраты на индивидуальную квадратичную кривую каждого агента, а не только на количество агентов.

Избыточность системных подсказок: системная подсказка из 3000 токенов повторно вводится на каждом этапе. Это означает, что 20-шаговый рабочий процесс оплачивает только 60 000 токенов системной подсказки, прежде чем будет обработана одна строка фактических данных задачи.

Проходы оценки и размышления: агенты, которые самокритикуют или проверяют свои результаты, добавляют целые дополнительные проходы вывода, каждый из которых оплачивает полную накопленную стоимость контекста на данном этапе рабочего процесса.

«Самый опасный момент при внедрении агента LLM — это когда что-то начинает работать. Команды масштабируют рабочий процесс, добавляют шаги, добавляют агентов — и обнаруживают квадратичную структуру затрат только тогда, когда приходит счет. К тому времени архитектура уже встроена».

Как предприятия могут избежать квадратичных затрат?

Хорошей новостью является то, что квадратичное масштабирование не является неизбежным — это выбор дизайна, который можно частично изменить с помощью преднамеренной архитектуры. Наиболее эффективные стратегии смягчения последствий включают обрезку контекста, когда агентам явно предписывается суммировать и отбрасывать промежуточные результаты, а не сохранять необработанные результаты инструмента. Иерархические шаблоны агентов также существенно помогают: вместо одного долго выполняющегося агента, накапливающего огромный контекст, вы организуете недолговечные субагенты, каждый из которых выполняет узкую задачу, передает компактную сводку и завершает работу.

Кэширование — еще один недостаточно используемый рычаг. Кэширование подсказок, которое сейчас поддерживается большинством основных поставщиков моделей, позволяет избежать повторной оплаты за статические части вашего контекста, такие как системные подсказки и справочные документы. Для предприятий, использующих большие объемы автоматизированных рабочих процессов, одно это может сократить затраты на 30–60%. Наконец, маршрутизация моделей — отправка более простых подзадач меньшим и более дешевым моделям с сохранением пограничных моделей для принятия сложных рассуждений — резко сглаживает кривую затрат.

Что это означает для компаний, пытающихся планировать бюджет операций в области ИИ?

Традиционное бюджетирование программного обеспечения предполагает, что затраты масштабируются вместе с пользователями.

Build Your Business OS Today

From freelancers to agencies, Mewayz powers 138,000+ businesses with 207 integrated modules. Start free, upgrade when you grow.

Create Free Account →

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Нашли это полезным? Поделиться.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Начать бесплатный пробный период →

Готовы действовать?

Начните ваш бесплатный пробный период Mewayz сегодня

Бизнес-платформа все-в-одном. Кредитная карта не требуется.

Начать бесплатно →

14-day free trial · No credit card · Cancel anytime