Hacker News

پہلے اصولوں سے مسلسل بیچنگ (2025)

پہلے اصولوں سے مسلسل بیچنگ (2025) مسلسل کا یہ جامع تجزیہ اس کے بنیادی اجزاء اور وسیع تر مضمرات کا تفصیلی جائزہ پیش کرتا ہے۔ فوکس کے کلیدی شعبے بحث کا مرکز ہے: بنیادی میکانزم اور...

1 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

پہلے اصول (2025) سے مسلسل بیچنگ

مسلسل بیچنگ ایک متحرک انفرنس شیڈولنگ تکنیک ہے جو ایک فعال پروسیسنگ بیچ میں نئی درخواستیں داخل کر کے ہارڈویئر تھرو پٹ کو زیادہ سے زیادہ کرتی ہے جب کوئی سلاٹ خالی ہوتا ہے، نوکریوں کے درمیان بے کار کمپیوٹ سائیکلوں کو ختم کرتا ہے۔ اسے پہلے اصولوں سے سمجھنے سے پتہ چلتا ہے کہ یہ 2025 میں بڑے پیمانے پر تعینات کیے گئے ہر اعلیٰ کارکردگی والے AI سرونگ سسٹم کے لیے بنیادی فن تعمیر کیوں بن گیا ہے۔

مسلسل بیچنگ اصل میں کیا ہے اور جامد بیچنگ کیوں ناکام ہوئی؟

مسلسل بیچنگ کی تعریف کرنے کے لیے، آپ کو پہلے یہ سمجھنا چاہیے کہ اس نے کیا بدلا ہے۔ روایتی جامد بیچنگ درخواستوں کی ایک مقررہ تعداد کو ایک ساتھ گروپ کرتی ہے، ان پر ایک اکائی کے طور پر کارروائی کرتی ہے، اور پوری بیچ ختم ہونے کے بعد ہی نئی درخواستیں قبول کرتی ہے۔ اہم خامی یہ ہے کہ بڑے زبان کے ماڈل متغیر لمبائی کے ٹوکن تیار کرتے ہیں - ایک درخواست 20 ٹوکنز کے بعد ختم ہو سکتی ہے جبکہ اسی بیچ میں دوسری درخواست 2,000 تک چلتی ہے۔ کلسٹر میں موجود ہر GPU کسی بھی نئے کام کے شروع ہونے سے پہلے طویل ترین ترتیب کے مکمل ہونے کے انتظار میں خالی بیٹھا ہے۔

مسلسل بیچنگ، جو کہ تاریخی 2022 پیپر "اورکا: ٹرانسفارمر پر مبنی جنریٹو ماڈلز کے لیے ایک تقسیم شدہ سرونگ سسٹم" میں پیش قدمی اس رکاوٹ کو مکمل طور پر توڑ دیتی ہے۔ یہ درخواست کی سطح کے بجائے تکرار کی سطح پر کام کرتا ہے۔ ماڈل میں سے ہر ایک آگے گزرنے کے بعد، شیڈیولر چیک کرتا ہے کہ آیا کوئی ترتیب ترتیب کے اختتامی ٹوکن تک پہنچ گئی ہے۔ اگر اس کے پاس ہے تو، اس سلاٹ کو فوری طور پر دوبارہ دعوی کیا جاتا ہے اور قطار میں لگی درخواست کو تفویض کیا جاتا ہے - کوئی انتظار نہیں، کوئی فضلہ نہیں۔ ہارڈ ویئر کے استعمال کو ہر وقت نظریاتی زیادہ سے زیادہ کے قریب رکھتے ہوئے بیچ کی ساخت ہر ڈی کوڈ قدم کے ساتھ روانی سے بدل جاتی ہے۔

KV کیش سسٹم کی سطح پر مسلسل بیچنگ کے ساتھ کیسے تعامل کرتا ہے؟

کی-ویلیو کیش میموری کا ڈھانچہ ہے جو ٹرانسفارمر انفرنس کو قابل عمل بناتا ہے۔ پروسیس شدہ ہر ٹوکن کے لیے، ماڈل توجہ کی کلیدوں اور قدروں کی گنتی کرتا ہے جنہیں برقرار رکھا جانا چاہیے تاکہ بعد میں آنے والے ٹوکنز فالتو گنتی کو نہ دہرائیں۔ ایک جامد بیچنگ سسٹم میں، KV کیش ایلوکیشن سیدھی سی ہے: بیچ میں ہر درخواست کے لیے زیادہ سے زیادہ ترتیب کی لمبائی کے متناسب میموری کو محفوظ کریں۔

مسلسل بیچنگ اس کو خوبصورتی سے پیچیدہ بناتی ہے۔ چونکہ درخواستیں غیر متوقع اوقات میں بیچ میں داخل اور باہر نکلتی ہیں، اس لیے سسٹم فکسڈ مربوط میموری بلاکس کو پہلے سے مختص نہیں کر سکتا۔ یہی وجہ ہے کہ vLLM کا PagedAttention — 2023 میں متعارف کرایا گیا — پیداواری تعیناتیوں میں مسلسل بیچنگ سے الگ نہیں ہو سکتا۔ PagedAttention آپریٹنگ سسٹمز سے ورچوئل میموری پیجنگ ماڈل لیتا ہے، KV کیشے کو مساوی سائز کے غیر متصل بلاکس میں تقسیم کرتا ہے۔ ایک ترتیب کے کیشے کے صفحات کو GPU میموری میں اسی طرح بکھرا جا سکتا ہے جس طرح ورچوئل میموری کے صفحات جسمانی RAM میں بکھرے ہوئے ہیں۔ نتیجہ بکھرنے سے تقریباً صفر کے قریب میموری کا ضیاع ہے، جو بغیر کسی اضافی ہارڈ ویئر کی سرمایہ کاری کے براہ راست اعلی بیچ کے سائز اور اعلی تھرو پٹ میں ترجمہ کرتا ہے۔

بنیادی شیڈولنگ میکانزم کیا ہیں جو مسلسل بیچنگ کا کام کرتے ہیں؟

تین ایک دوسرے پر منحصر شیڈولنگ فیصلے ہر مسلسل بیچنگ سسٹم کو کنٹرول کرتے ہیں:

  • پریمپشن پالیسی: جب میموری کا دباؤ زیادہ ہوتا ہے اور ایک نئی اعلی ترجیحی درخواست آتی ہے، تو شیڈیولر کو یہ فیصلہ کرنا چاہیے کہ آیا چلتے ہوئے کم ترجیحی ترتیب کو پیش کرنا ہے، اس کے KV کیشے کو CPU RAM میں تبدیل کرنا ہے، یا بعد میں شروع سے دوبارہ گنتی کرنا ہے۔ سویپ پر مبنی پیشگی حساب کتاب کو محفوظ رکھتی ہے لیکن پی سی آئی بینڈوڈتھ استعمال کرتی ہے۔ دوبارہ گنتی GPU سائیکل کو ضائع کرتی ہے لیکن میموری کو صاف رکھتی ہے۔
  • داخلہ کنٹرول: شیڈولر کو یہ پیشین گوئی کرنی چاہیے کہ آیا نئی درخواست کا KV کیش اس کی پوری نسل کی زندگی بھر دستیاب میموری میں فٹ ہو جائے گا۔ کم اندازہ لگانا یادداشت سے باہر ہونے کا سبب بنتا ہے۔ حد سے زیادہ اندازہ لگانا قطار کو غیر ضروری طور پر بھوکا رکھتا ہے۔ جدید نظام ان خطرات کو متوازن کرنے کے لیے پروفائل شدہ لمبائی کی تقسیم اور ریزرویشن بفرز کا استعمال کرتے ہیں۔
  • Chunked prefill: prefill مرحلہ — صارف کے ان پٹ پرامپٹ پر کارروائی کرنا — کمپیوٹ کے پابند ہے اور GPU پر اجارہ داری قائم کر سکتا ہے، پہلے سے چلنے والی ترتیبوں کے لیے ڈی کوڈ کے مراحل میں تاخیر کرتا ہے۔ chunked prefill لمبے پرامپٹس کو طے شدہ سائز کے ٹکڑوں میں تقسیم کرتا ہے جو ڈی کوڈ تکرار کے ساتھ ایک دوسرے سے جڑے ہوئے ہیں، جس سے کم از کم خام پری فل تھرو پٹ کی قیمت پر ہم آہنگ صارفین کے لیے ٹائم ٹو فرسٹ ٹوکن لیٹنسی کو کم کیا جاتا ہے۔
  • ترجیحی قطار: SLA درجے کے لحاظ سے انٹرپرائز کی تعیناتی کے حصے کی درخواستیں۔ تاخیر سے متعلق حساس API پہلے سے بہترین کوشش کے بیچ جابز کو کال کرتا ہے۔ اس پرت کے بغیر، ایک طویل دستاویز کا خلاصہ کرنے کا کام سینکڑوں ہم آہنگی سیشنوں کے لیے انٹرایکٹو صارف کے تجربے کو کم کر سکتا ہے۔

"مسلسل بیچنگ صرف تھرو پٹ کو بہتر نہیں کرتی ہے - یہ AI تخمینہ کے معاشی ماڈل کی تشکیل نو کرتی ہے۔ GPUs کو گرانولریٹی کی درخواست کرنے کے بجائے تکراری گرانولریٹی پر قابض رکھ کر، آپریٹرز ایک جیسے ہارڈ ویئر سے 5–10× زیادہ موثر استعمال حاصل کرتے ہیں، جو کہ فی 2-5 سروس کی قیمت کو کم کرنے کے لیے دستیاب واحد سب سے بڑا لیور ہے۔"

حقیقی دنیا کی تعیناتیاں کارکردگی کے فوائد کی پیمائش کیسے کرتی ہیں؟

Anyscale کے بینچ مارک کے نتائج، 2024 میں متعدد ماڈل فیملیز میں آزادانہ تولید کے ساتھ، مسلسل بیچنگ کی فراہمی کو 23× اور 36× کے درمیان زیادہ تھرو پٹ دکھاتے ہیں جو کہ حقیقت پسندانہ ٹریفک پیٹرن کے تحت سادہ جامد بیچنگ کے مقابلے میں ہے۔ فائدہ سب سے زیادہ اس وقت ظاہر ہوتا ہے جب درخواست کی لمبائی کا فرق زیادہ ہوتا ہے — بالکل وہی حالات جو پیداواری بات چیت کے AI کام کے بوجھ کو نمایاں کرتے ہیں جہاں صارف کے سوالات تین لفظوں کے اشارے سے لے کر کثیر صفحاتی دستاویز جمع کرانے تک ہوتے ہیں۔

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

لیٹنسی ایک زیادہ اہم کہانی بیان کرتی ہے۔ ٹائم ٹو فرسٹ ٹوکن ڈرامائی طور پر بہتر ہوتا ہے کیونکہ سسٹم اب پری فل شروع کرنے سے پہلے مکمل جامد بیچ کے جمع ہونے کا انتظار نہیں کرتا ہے۔ انٹر ٹوکن لیٹینسی اعتدال پسند بوجھ کے تحت مستحکم رہتی ہے لیکن گرنے کی بجائے سنترپتی کے تحت خوبصورتی سے کم ہوتی ہے، کیونکہ شیڈولر تمام فعال ترتیبوں پر آگے بڑھتا رہتا ہے یہاں تک کہ جب قطار گہری ہو جائے۔ ریئل ٹائم AI فیچرز بنانے والے کاروباروں کے لیے، یہ خوبصورت تنزلی وکر اکثر تجارتی لحاظ سے چوٹی کے تھرو پٹ نمبرز سے زیادہ اہم ہوتا ہے۔

کاروبار AI تخمینہ سے آگے مسلسل بیچنگ کے اصولوں کا اطلاق کیسے کر سکتے ہیں؟

مسلسل بیچنگ کے پیچھے آرکیٹیکچرل بصیرت — بہترین ممکنہ گرانولریٹی پر وسائل کا دوبارہ دعوی کریں اور کام کے کسی موٹے دانے والے یونٹ کے ختم ہونے کا انتظار کرنے کے بجائے انہیں فوری طور پر دوبارہ تفویض کریں — متضاد کام کے بوجھ کو منظم کرنے والے کسی بھی نظام کے لیے ایک عمومی اصول ہے۔ کاروباری آپریٹنگ سسٹمز کو ایک ہی چیلنج کا سامنا ہے: CRM ورک فلوز، مارکیٹنگ آٹومیشن، اینالیٹکس پائپ لائنز، اور ای کامرس آپریشنز میں مشترکہ پروسیسنگ کی صلاحیت کے لیے مسابقت کرنے والے مختلف دورانیے کے کام۔

Mewayz اس فلسفے کو اپنے 207-ماڈیول بزنس OS پر لاگو کرتا ہے، دنیا بھر میں 138,000 کاروباروں کے ذریعے استعمال کیے جانے والے ایک مربوط پلیٹ فارم پر متحرک طور پر آپریشنل کام کے بوجھ کو روٹ کرتا ہے۔ ٹیموں کو بیچ رپورٹنگ کے چکروں، ترتیب وار منظوری کی قطاروں، یا سائلڈ ٹول ہینڈ آف کا انتظار کرنے پر مجبور کرنے کے بجائے، Mewayz کاروباری واقعات کو مسلسل پروسیس کرتا ہے — مکمل آؤٹ پٹ کو فوری طور پر ڈاؤن اسٹریم ماڈیولز میں فیڈ کرتا ہے جس طرح سے ایک مسلسل بیچنگ شیڈیولر مفت GPU سلاٹس کو درخواست کی قطار میں واپس کرتا ہے۔ نتیجہ صرف بینچ مارکس میں نہیں بلکہ حقیقی کاروباری کارروائیوں میں قابل پیمائش تھرو پٹ بہتری ہے۔

اکثر پوچھے گئے سوالات

کیا مسلسل بیچنگ TensorFlow سرونگ میں ڈائنامک بیچنگ جیسی ہے؟

نہیں۔ TensorFlow Serving کی ڈائنامک بیچنگ درخواستوں کو وقت کی کھڑکیوں اور قطار کی گہرائی کی بنیاد پر متغیر سائز کے بیچوں میں جمع کرتی ہے، لیکن یہ اب بھی شروع سے ختم ہونے تک ہر بیچ کو ایٹمی طور پر پروسیس کرتی ہے۔ مسلسل بیچنگ انفرادی ٹوکن جنریشن مرحلے پر کام کرتی ہے، جس سے بیچ کی ساخت ہر فارورڈ پاس کو تبدیل کر سکتی ہے۔ گرینولریٹی کا فرق یہی وجہ ہے کہ مسلسل بیچنگ خاص طور پر خودکار جنریشن ورک بوجھ کے لیے نمایاں طور پر زیادہ تھرو پٹ حاصل کرتی ہے۔

کیا مسلسل بیچنگ کے لیے ماڈل فن تعمیر میں تبدیلی کی ضرورت ہے؟

معیاری ٹرانسفارمر آرکیٹیکچرز کو کسی ترمیم کی ضرورت نہیں ہے۔ مسلسل بیچنگ کو مکمل طور پر سرونگ لیئر پر لاگو کیا جاتا ہے جس میں انفرنس شیڈیولر، میموری مینیجر، اور توجہ کے کرنل میں تبدیلیاں کی جاتی ہیں۔ تاہم، کچھ اصلاحیں — خاص طور پر PagedAttention — کے لیے حسب ضرورت CUDA کرنل کی ضرورت ہوتی ہے جو معیاری توجہ کے نفاذ کی جگہ لے لیتے ہیں، یہی وجہ ہے کہ پروڈکشن گریڈ مسلسل بیچنگ فریم ورک جیسے vLLM اور TensorRT-LLM عام مقصد کے انفرنس سرورز کے لیے ڈراپ ان متبادل نہیں ہیں۔

کونسی ہارڈ ویئر کی رکاوٹیں لگاتار بیچنگ کی تاثیر کو محدود کرتی ہیں؟

GPU HBM بینڈوتھ اور کل VRAM صلاحیت بنیادی رکاوٹیں ہیں۔ زیادہ سے زیادہ ہم آہنگی کو محدود کرتے ہوئے، بڑے KV کیچز کو زیادہ میموری کی ضرورت ہوتی ہے۔ اعلی بینڈوتھ انٹر کنیکٹس (NVLink، Infiniband) ملٹی-GPU تعیناتیوں کے لیے اہم بن جاتے ہیں جہاں KV کیشے کو تمام آلات پر تقسیم کیا جانا چاہیے۔ یادداشت کے محدود ماحول میں، KV کیشے کی قدروں کی جارحانہ مقدار (FP16 سے INT8 یا INT4 تک) ایک چھوٹی درستگی کی کمی کی قیمت پر صلاحیت کو بحال کرتی ہے جو زیادہ تر تجارتی ایپلی کیشنز کے لیے قابل قبول ہے۔


چاہے آپ AI سے چلنے والی خصوصیات بنا رہے ہوں یا اپنی پوری تنظیم میں پیچیدہ کاروباری کارروائیوں کو ترتیب دے رہے ہوں، بنیادی اصول یکساں ہے: بیکار وقت کو ختم کریں، مسلسل صلاحیت کا دعویٰ کریں، اور اپنے پاس پہلے سے موجود وسائل کے ساتھ مزید کام کریں۔ Mewayz اس اصول کو 207 مربوط ماڈیولز پر عمل میں لاتا ہے — CRM اور ای کامرس سے لے کر تجزیات اور ٹیم کے تعاون تک — ہر ماہ $19 سے شروع ہوتا ہے۔

اپنا کاروبار مکمل تھرو پٹ پر چلانے کے لیے تیار ہیں؟ app.mewayz.com پر اپنا مفت ٹرائل شروع کریں اور دیکھیں کہ Mewayz کے ساتھ 138,000 کاروبار کس طرح بہتر طریقے سے کام کر رہے ہیں۔

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime