Hacker News

第一原理からの連続バッチ処理 (2025)

第一原理からの連続バッチ処理 (2025) この継続的な包括的な分析では、そのコアである Mewayz Business OS の詳細な調査が提供されます。

1 最小読み取り

Mewayz Team

Editorial Team

Hacker News

第一原則からの連続バッチ処理 (2025)

連続バッチ処理は、スロットが空いた瞬間に新しいリクエストをアクティブな処理バッチに挿入し、ジョブ間のアイドルな計算サイクルを排除することでハードウェアのスループットを最大化する動的な推論スケジューリング手法です。これを第一原理から理解すると、なぜそれが 2025 年に大規模に導入されるすべての高性能 AI サービス システムの基礎アーキテクチャとなったのかがわかります。

連続バッチ処理とは正確には何ですか?また、静的バッチ処理が失敗したのはなぜですか?

連続バッチ処理を評価するには、まず、それが何を置き換えたのかを理解する必要があります。従来の静的バッチ処理では、固定数のリクエストをグループ化し、それらを 1 つのユニットとして処理し、バッチ全体が終了した後にのみ新しいリクエストを受け入れます。重大な欠陥は、大規模な言語モデルが可変長のトークンを生成することです。あるリクエストは 20 トークン後に終了し、同じバッチ内の別のリクエストは 2,000 トークン実行される可能性があります。クラスター内のすべての GPU は、新しい作業を開始する前に、最も長いシーケンスが完了するのを待機してアイドル状態になります。

2022 年の画期的な論文「Orca: A Distributed Serving System for Transformer-Based Generative Models」で先駆けられた連続バッチ処理は、この制約を完全に打ち破ります。これは、リクエスト レベルではなく反復レベルで動作します。モデルを順方向に通過するたびに、スケジューラはシーケンスがシーケンス終了トークンに到達したかどうかを確認します。存在する場合、そのスロットはすぐに回収され、キューに入れられたリクエストに割り当てられます。待ち時間や無駄はありません。バッチ構成はデコードステップごとに流動的に変化し、ハードウェア使用率を常に理論上の最大値に近づけます。

KV キャッシュはシステム レベルで連続バッチ処理とどのように連携しますか?

キー/値キャッシュは、トランスフォーマーの推論を扱いやすくするメモリ構造です。処理されるすべてのトークンについて、モデルは、後続のトークンで冗長な計算が繰り返されないように保持する必要があるアテンション キーと値を計算します。静的バッチ システムでは、KV キャッシュの割り当ては簡単です。バッチ内のすべてのリクエストの最大シーケンス長に比例してメモリを予約します。

💡 ご存知でしたか?

Mewayzは8つ以上のビジネスツールを1つのプラットフォームに統合します

CRM・請求・人事・プロジェクト・予約・eCommerce・POS・分析。永久無料プラン提供中。

無料で始める →

連続バッチ処理では、これが非常に複雑になります。リクエストは予測できないタイミングでバッチに出入りするため、システムは固定の連続メモリ ブロックを事前に割り当てることができません。 2023 年に導入された vLLM の PagedAttendance が、運用環境のデプロイメントにおける継続的なバッチ処理と切り離せないものになったのは、まさにこれが理由です。 PagedAttendance はオペレーティング システムから仮想メモリ ページング モデルを借用し、KV キャッシュを同じサイズの不連続ブロックに分割します。仮想メモリ ページが物理 RAM 全体に分散しているのと同じように、シーケンスのキャッシュ ページは GPU メモリ全体に分散している可能性があります。その結果、断片化によるメモリの無駄がほぼゼロになり、追加のハードウェア投資を必要とせずに、バッチ サイズの増加とスループットの向上に直接つながります。

連続バッチ処理を機能させる中核となるスケジューリング メカニズムは何ですか?

すべての連続バッチ処理システムは、相互に依存する 3 つのスケジューリング決定によって決まります。

プリエンプション ポリシー: メモリ負荷が高く、新しい高優先度リクエストが到着した場合、スケジューラは、実行中の低優先度シーケンスをプリエンプトするか、その KV キャッシュを CPU RAM にスワップするか、後で最初から再計算するかを決定する必要があります。スワップベースのプリエンプションは計算を維持しますが、PCIe 帯域幅を消費します。再計算により GPU サイクルが無駄になりますが、メモリはクリーンに保たれます。

アドミッション コントロール: スケジューラは、新しいリクエストの KV キャッシュが全世代の有効期間にわたって利用可能なメモリに収まるかどうかを予測する必要があります。過小評価すると、シーケンスの途中でメモリ不足によるクラッシュが発生します。過大評価すると、キューが不必要に不足します。最新のシステムは、プロファイルされた長さの分布と予約バッファを使用して、これらのリスクのバランスをとります。

チャンク化されたプレフィル: プレフィル フェーズ (ユーザーの入力プロンプトを処理する) はコンピューティングに依存しており、GPU を独占し、すでに実行されているシーケンスのデコード ステップを遅らせる可能性があります。チャンクされたプリフィルは長いプロンプトを固定サイズに分割します

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Mewayzを無料で試す

CRM、請求書、プロジェクト、人事などを網羅するオールインワンプラットフォーム。クレジットカードは不要です。

今日からビジネス管理をスマートに始めましょう。

30,000+社の企業が参加しています。永久無料プラン・クレジットカード不要。

これは役に立ちましたか?共有する。

実践に移す準備はできていますか?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

無料トライアル開始 →

行動を起こす準備はできていますか?

今日からMewayz無料トライアルを開始

オールインワンビジネスプラットフォーム。クレジットカード不要。

無料で始める →

14日間無料トライアル · クレジットカード不要 · いつでもキャンセル可能