Hacker News

دسته بندی مداوم از اصول اولیه (2025)

دسته بندی مداوم از اصول اولیه (2025) این تجزیه و تحلیل جامع مستمر بررسی دقیق اجزای اصلی و مفاهیم گسترده تر آن را ارائه می دهد. حوزه های کلیدی تمرکز محور بحث: مکانیسم های اصلی و ...

1 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

بچینگ پیوسته از اصول اول (2025)

دسته‌بندی پیوسته یک تکنیک زمان‌بندی استنتاج پویا است که با درج درخواست‌های جدید در یک دسته پردازش فعال در لحظه آزاد شدن یک اسلات، توان سخت‌افزار را به حداکثر می‌رساند و چرخه‌های محاسباتی بی‌کار بین کارها را حذف می‌کند. درک آن از اصول اولیه نشان می دهد که چرا به معماری اساسی برای هر سیستم ارائه دهنده خدمات هوش مصنوعی با کارایی بالا تبدیل شده است که در مقیاس مقیاس در سال 2025 مستقر شده است.

بچینگ پیوسته دقیقاً چیست و چرا بچینگ استاتیک با شکست مواجه شد؟

برای قدردانی از بچینگ مداوم، ابتدا باید بفهمید که چه چیزی جایگزین شده است. دسته‌بندی استاتیک سنتی تعداد ثابتی از درخواست‌ها را با هم گروه‌بندی می‌کند، آنها را به‌عنوان یک واحد پردازش می‌کند و تنها پس از اتمام کل دسته، درخواست‌های جدید را می‌پذیرد. نقص مهم این است که مدل‌های زبان بزرگ توکن‌هایی با طول متغیر تولید می‌کنند – یک درخواست ممکن است پس از ۲۰ توکن خاتمه یابد در حالی که درخواست دیگری در همان دسته برای ۲۰۰۰ اجرا می‌شود. هر GPU در خوشه بیکار و منتظر می ماند تا طولانی ترین دنباله قبل از شروع کار جدید کامل شود.

بچینگ پیوسته، که در مقاله شاخص 2022 «Orca: A Distributed Service System for Models Generative Based Transformer» پیشگام شد، این محدودیت را به طور کامل شکست می دهد. به جای سطح درخواست، در سطح تکرار عمل می کند. پس از هر عبور به جلو از مدل، زمان‌بند بررسی می‌کند که آیا هر دنباله‌ای به نشانه پایان دنباله خود رسیده است یا خیر. اگر داشته باشد، آن شکاف بلافاصله پس گرفته می شود و به یک درخواست در صف اختصاص داده می شود - بدون انتظار، بدون اتلاف. ترکیب دسته ای به طور سیال با هر مرحله رمزگشایی تغییر می کند و استفاده از سخت افزار را همیشه نزدیک به حداکثر تئوری نگه می دارد.

چگونه حافظه پنهان KV با بچینگ پیوسته در سطح سیستم تعامل دارد؟

حافظه پنهان کلید-مقدار ساختار حافظه ای است که استنتاج ترانسفورماتور را قابل حمل می کند. برای هر توکن پردازش شده، مدل کلیدهای توجه و مقادیری را محاسبه می کند که باید حفظ شوند تا توکن های بعدی محاسبات اضافی را تکرار نکنند. در یک سیستم بچینگ استاتیک، تخصیص حافظه پنهان KV ساده است: حافظه ذخیره متناسب با حداکثر طول توالی برای هر درخواست در دسته.

بچینگ مداوم این امر را به طرز ظریفی پیچیده می کند. از آنجایی که درخواست‌ها در زمان‌های غیرقابل پیش‌بینی وارد و خارج می‌شوند، سیستم نمی‌تواند بلوک‌های حافظه پیوسته ثابت را از قبل تخصیص دهد. دقیقاً به همین دلیل است که PagedAttention vLLM - که در سال 2023 معرفی شد - از دسته‌بندی مداوم در استقرار تولید جدا نشد. PagedAttention مدل صفحه‌بندی حافظه مجازی را از سیستم‌عامل‌ها قرض می‌گیرد و کش KV را به بلوک‌های غیر پیوسته با اندازه مساوی تقسیم می‌کند. صفحات کش یک دنباله می توانند در حافظه GPU پراکنده شوند، همانطور که صفحات حافظه مجازی در RAM فیزیکی پراکنده شده اند. نتیجه تقریباً صفر اتلاف حافظه ناشی از تکه تکه شدن است که مستقیماً به اندازه دسته‌ای بالاتر و توان عملیاتی بالاتر بدون سرمایه‌گذاری سخت‌افزاری اضافی ترجمه می‌شود.

مکانیسم‌های اصلی برنامه‌ریزی که باعث می‌شود بچینگ پیوسته کار کند چیست؟

سه تصمیم زمان‌بندی وابسته به هم بر هر سیستم دسته‌بندی پیوسته حاکم است:

  • خط‌مشی Preemption: وقتی فشار حافظه بالا است و یک درخواست با اولویت بالا دریافت می‌شود، زمان‌بند باید تصمیم بگیرد که آیا از یک دنباله با اولویت پایین در حال اجرا جلوگیری کند، حافظه پنهان KV خود را به RAM CPU تغییر دهد یا بعداً آن را از ابتدا دوباره محاسبه کند. Preemption مبتنی بر Swap محاسبات را حفظ می کند اما پهنای باند PCIe را مصرف می کند. محاسبه مجدد چرخه های GPU را هدر می دهد اما حافظه را تمیز نگه می دارد.
  • کنترل پذیرش: زمان‌بند باید پیش‌بینی کند که آیا کش KV درخواست جدید در طول عمر نسل کامل آن در حافظه موجود جا می‌گیرد یا خیر. دست کم گرفتن باعث خرابی های خارج از حافظه در اواسط سکانس می شود. بیش از حد تخمین زدن بی جهت صف را گرسنه می کند. سیستم‌های مدرن از توزیع‌های طول پروفیلی و بافرهای رزرو برای متعادل کردن این خطرات استفاده می‌کنند.
  • پیش پر کردن تکه تکه شده: مرحله پیش پر کردن - پردازش اعلان ورودی کاربر - محاسباتی است و می تواند GPU را در انحصار خود درآورد و مراحل رمزگشایی را برای دنباله های در حال اجرا به تاخیر بیاندازد. پیش پر کردن تکه‌ای، درخواست‌های طولانی را به تکه‌هایی با اندازه ثابت تقسیم می‌کند که با تکرارهای رمزگشایی در هم آمیخته شده‌اند، و تأخیر زمان تا توکن اول را برای کاربران همزمان به قیمت توان عملیاتی پیش‌پر خام کم‌تر کاهش می‌دهد.
  • صف اولویت: درخواست‌های بخش استقرار سازمانی بر اساس ردیف SLA. API حساس به تأخیر، کارهای دسته‌ای با بهترین تلاش را فراخوانی می‌کند. بدون این لایه، یک کار خلاصه‌سازی سند طولانی می‌تواند تجربه تعاملی کاربر را برای صدها جلسه همزمان کاهش دهد.

"بچینگ پیوسته صرفاً توان عملیاتی را بهبود نمی‌بخشد - مدل اقتصادی استنباط هوش مصنوعی را بازسازی می‌کند. با اشغال کردن پردازنده‌های گرافیکی در ریزدانگی تکرار به جای درخواست جزئیات، اپراتورها به استفاده مؤثر 5 تا 10× بالاتر از سخت‌افزار یکسان دست می‌یابند که بزرگترین اهرم موجود برای کاهش هزینه‌های هر توکن است."

چگونه استقرارهای واقعی، سود عملکرد را اندازه گیری می کنند؟

نتایج معیار از Anyscale، همراه با بازتولیدهای مستقل در چندین خانواده مدل در سال 2024، به طور مداوم دسته‌ای پیوسته را نشان می‌دهد که بین 23× تا 36× توان عملیاتی بالاتری را در مقایسه با دسته‌بندی استاتیک ساده تحت الگوهای ترافیکی واقعی ارائه می‌دهد. زمانی که واریانس طول درخواست زیاد باشد، سود بیشتر به چشم می‌آید - دقیقاً شرایطی که بارهای کاری هوش مصنوعی محاوره‌ای تولید را مشخص می‌کند که در آن درخواست‌های کاربر از درخواست‌های سه کلمه‌ای تا ارسال اسناد چند صفحه‌ای متغیر است.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

تأخیر داستان ظریف تری را بیان می کند. زمان تا اولین توکن به طور چشمگیری بهبود می یابد زیرا سیستم دیگر منتظر نمی ماند تا یک دسته کامل استاتیک قبل از شروع پر کردن اولیه جمع شود. تأخیر بین نشانه‌ها تحت بار متوسط ​​پایدار می‌ماند، اما در اثر اشباع به‌جای فروپاشی، به‌خوبی کاهش می‌یابد، زیرا زمان‌بندی‌کننده به پیشرفت رو به جلو در تمام توالی‌های فعال ادامه می‌دهد، حتی زمانی که صف عمیق‌تر می‌شود. برای کسب‌وکارهایی که ویژگی‌های هوش مصنوعی بلادرنگ ایجاد می‌کنند، این منحنی تخریب زیبا اغلب از نظر تجاری مهم‌تر از اعداد اوج توان است.

چگونه کسب‌وکارها می‌توانند اصول دسته‌بندی پیوسته را فراتر از استنتاج هوش مصنوعی اعمال کنند؟

بینش معماری پشت دسته‌بندی پیوسته - بازیابی منابع با بهترین دانه‌بندی ممکن و تخصیص مجدد آنها بلافاصله به جای منتظر ماندن برای اتمام یک واحد درشت دانه - یک اصل کلی برای هر سیستمی است که بارهای کاری ناهمگن را مدیریت می‌کند. سیستم‌های عامل کسب‌وکار با همین چالش روبرو هستند: وظایفی با مدت زمان بسیار متفاوت که برای ظرفیت پردازش مشترک در جریان‌های کاری CRM، اتوماسیون بازاریابی، خطوط لوله تجزیه و تحلیل، و عملیات تجارت الکترونیک رقابت می‌کنند.

Mewayz این فلسفه را در سراسر سیستم‌عامل تجاری ۲۰۷ ماژول خود اعمال می‌کند، و به صورت پویا بارهای کاری عملیاتی را در یک پلتفرم یکپارچه که توسط ۱۳۸۰۰۰ کسب‌وکار در سراسر جهان استفاده می‌شود، مسیریابی می‌کند. به جای اینکه تیم‌ها را مجبور کند برای چرخه‌های گزارش‌دهی دسته‌ای، صف‌های تأیید متوالی یا انتقال ابزارهای سیلد منتظر بمانند، Mewayz رویدادهای تجاری را به‌طور مداوم پردازش می‌کند - خروجی‌های تکمیل‌شده را بلافاصله به ماژول‌های پایین‌دستی تغذیه می‌کند، همانطور که یک زمان‌بندی دسته‌ای پیوسته، اسلات‌های GPU آزاد شده را به صف درخواست باز می‌گرداند. نتیجه بهبود توان عملیاتی قابل اندازه‌گیری در عملیات تجاری واقعی است، نه فقط معیارها.

سوالات متداول

آیا دسته‌بندی پیوسته مانند دسته‌بندی پویا در سرویس TensorFlow است؟

خیر. دسته‌بندی پویا TensorFlow Serving درخواست‌ها را در دسته‌هایی با اندازه متغیر بر اساس پنجره‌های زمانی و عمق صف جمع‌آوری می‌کند، اما همچنان هر دسته را از ابتدا تا انتها به صورت اتمی پردازش می‌کند. دسته‌بندی پیوسته در مرحله تولید توکن فردی عمل می‌کند و به ترکیب دسته‌ای اجازه می‌دهد هر پاس رو به جلو را تغییر دهد. تفاوت دانه‌بندی به این دلیل است که دسته‌بندی پیوسته به طور خاص برای بارهای کاری تولید خودکار رگرسیون به توان عملیاتی بسیار بالاتری دست می‌یابد.

آیا دسته‌بندی پیوسته به تغییرات معماری مدل نیاز دارد؟

معماری های ترانسفورماتور استاندارد نیازی به تغییر ندارند. دسته بندی پیوسته به طور کامل در لایه سرویس دهی از طریق تغییرات در زمانبندی استنتاج، مدیر حافظه و هسته توجه اجرا می شود. با این حال، برخی از بهینه‌سازی‌ها - به‌ویژه PagedAttention - به هسته‌های CUDA سفارشی نیاز دارند که جایگزین پیاده‌سازی‌های استاندارد توجه شوند، به همین دلیل است که چارچوب‌های دسته‌ای پیوسته درجه تولید مانند vLLM و TensorRT-LLM جایگزینی برای سرورهای استنتاج همه‌منظوره نیستند.

چه محدودیت‌های سخت‌افزاری اثربخشی پیوسته دسته‌بندی را محدود می‌کند؟

پهنای باند GPU HBM و ظرفیت کل VRAM محدودیت های اصلی هستند. کش های بزرگتر KV به حافظه بیشتری نیاز دارند که حداکثر همزمانی را محدود می کند. اتصالات با پهنای باند بالا (NVLink، Infiniband) برای استقرار چند GPU که در آن حافظه نهان KV باید بین دستگاه‌ها توزیع شود، حیاتی هستند. در محیط‌های محدود به حافظه، کمی‌سازی تهاجمی مقادیر حافظه پنهان KV (از FP16 به INT8 یا INT4) ظرفیت را به قیمت کاهش دقت کمی که برای اکثر برنامه‌های تجاری قابل قبول است، بازیابی می‌کند.


چه در حال ایجاد ویژگی‌های مبتنی بر هوش مصنوعی باشید یا عملیات‌های تجاری پیچیده را در کل سازمان خود تنظیم کنید، اصل اساسی یکسان است: زمان بیکاری را حذف کنید، ظرفیت را به طور مداوم بازیابی کنید، و کارهای بیشتری را با منابعی که از قبل دارید پردازش کنید. Mewayz این اصل را در 207 ماژول یکپارچه - از CRM و تجارت الکترونیک گرفته تا تجزیه و تحلیل و همکاری تیمی - با شروع از 19 دلار در ماه به اجرا در می آورد.

آماده ای برای راه اندازی کسب و کار خود با توان کامل؟ آزمایشی رایگان خود را در app.mewayz.com شروع کنید و ببینید که چگونه 138000 کسب و کار با Mewayz هوشمندتر عمل می کنند.

را بازیابی می کند.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime