التجميع المستمر من المبادئ الأولى (2025)
التجميع المستمر من المبادئ الأولى (2025) يقدم هذا التحليل الشامل المستمر فحصًا تفصيليًا لنظام التشغيل الرئيسي - Mewayz Business OS.
Mewayz Team
Editorial Team
الخلط المستمر من المبادئ الأولى (2025)
التجميع المستمر هو أسلوب جدولة استدلالي ديناميكي يعمل على زيادة إنتاجية الأجهزة إلى الحد الأقصى عن طريق إدراج طلبات جديدة في مجموعة معالجة نشطة في اللحظة التي يتم فيها تحرير إحدى الفتحات، مما يؤدي إلى القضاء على دورات الحوسبة الخاملة بين المهام. يكشف فهمها من المبادئ الأولى عن سبب تحولها إلى البنية الأساسية لكل نظام خدمة ذكاء اصطناعي عالي الأداء يتم نشره على نطاق واسع في عام 2025.
ما هو بالضبط الخلط المستمر ولماذا فشل الخلط الثابت؟
لتقدير الخلط المستمر، يجب عليك أولاً أن تفهم ما تم استبداله. تجمع الدفعة الثابتة التقليدية عددًا ثابتًا من الطلبات معًا، وتعالجها كوحدة واحدة، ولا تقبل الطلبات الجديدة إلا بعد انتهاء الدفعة بأكملها. العيب الفادح هو أن نماذج اللغة الكبيرة تولد رموزًا مميزة ذات طول متغير - قد ينتهي طلب واحد بعد 20 رمزًا مميزًا بينما يعمل طلب آخر في نفس الدفعة مقابل 2000 رمزًا. تظل كل وحدة معالجة رسومات في المجموعة في وضع الخمول في انتظار اكتمال أطول تسلسل قبل أن يبدأ أي عمل جديد.
إن عملية التجميع المستمر، التي كانت رائدة في الورقة البحثية التاريخية لعام 2022 بعنوان "Orca: نظام التقديم الموزع للنماذج التوليدية القائمة على المحولات"، تكسر هذا القيد تمامًا. إنه يعمل على مستوى التكرار بدلاً من مستوى الطلب. بعد كل تمريرة للأمام عبر النموذج، يتحقق المجدول مما إذا كان أي تسلسل قد وصل إلى رمز نهاية التسلسل الخاص به. إذا كان الأمر كذلك، فسيتم استعادة هذه الفتحة على الفور وتعيينها لطلب في قائمة الانتظار - لا انتظار ولا هدر. يتغير تكوين الدفعة بسلاسة مع كل خطوة فك تشفير، مما يجعل استخدام الأجهزة قريبًا من الحد الأقصى النظري في جميع الأوقات.
كيف تتفاعل ذاكرة التخزين المؤقت KV مع الخلط المستمر على مستوى النظام؟
ذاكرة التخزين المؤقت ذات القيمة الرئيسية هي بنية الذاكرة التي تجعل استنتاج المحولات قابلاً للتتبع. بالنسبة لكل رمز مميز تتم معالجته، يحسب النموذج مفاتيح الانتباه والقيم التي يجب الاحتفاظ بها حتى لا تكرر الرموز المميزة اللاحقة الحسابات الزائدة عن الحاجة. في نظام الدُفعات الثابت، يكون تخصيص ذاكرة التخزين المؤقت KV أمرًا مباشرًا: ذاكرة احتياطية تتناسب مع الحد الأقصى لطول التسلسل لكل طلب في الدُفعة.
💡 هل تعلم؟
Mewayz تحل محل 8+ أدوات أعمال في منصة واحدة
CRM · الفواتير · الموارد البشرية · المشاريع · الحجوزات · التجارة الإلكترونية · نقطة البيع · التحليلات. خطة مجانية للأبد متاحة.
ابدأ مجانًا →الخلط المستمر يعقد هذا بأناقة. نظرًا لأن الطلبات تدخل وتخرج من الدفعة في أوقات غير متوقعة، فلا يمكن للنظام تخصيص كتل الذاكرة المتجاورة الثابتة مسبقًا. وهذا هو بالتحديد السبب الذي جعل PagedAttention من vLLM - الذي تم تقديمه في عام 2023 - لا يمكن فصله عن التجميع المستمر في عمليات نشر الإنتاج. يستعير PagedAttention نموذج ترحيل الذاكرة الافتراضية من أنظمة التشغيل، ويقسم ذاكرة التخزين المؤقت KV إلى كتل غير متجاورة ذات حجم متساوٍ. يمكن أن تكون صفحات ذاكرة التخزين المؤقت للتسلسل متناثرة عبر ذاكرة GPU تمامًا كما تكون صفحات الذاكرة الافتراضية متناثرة عبر ذاكرة الوصول العشوائي الفعلية. والنتيجة هي هدر للذاكرة يقارب الصفر بسبب التجزئة، وهو ما يترجم مباشرة إلى أحجام دفعات أعلى وإنتاجية أعلى دون استثمار إضافي في الأجهزة.
ما هي آليات الجدولة الأساسية التي تجعل عملية الخلط المستمر تعمل؟
هناك ثلاثة قرارات جدولة مترابطة تحكم كل نظام تجميع مستمر:
سياسة الاستباقية: عندما يكون ضغط الذاكرة مرتفعًا ويصل طلب جديد ذو أولوية عالية، يجب على المجدول أن يقرر ما إذا كان سيتم استباق تسلسل قيد التشغيل ذو أولوية منخفضة، أو تبديل ذاكرة التخزين المؤقت KV الخاصة به إلى ذاكرة الوصول العشوائي لوحدة المعالجة المركزية (CPU)، أو إعادة حسابها من البداية لاحقًا. تحافظ عملية الاستباقية المستندة إلى المبادلة على العمليات الحسابية ولكنها تستهلك عرض النطاق الترددي لـ PCIe؛ تؤدي عملية إعادة الحساب إلى إضاعة دورات وحدة معالجة الرسومات ولكنها تحافظ على نظافة الذاكرة.
التحكم في القبول: يجب أن يتنبأ المجدول بما إذا كانت ذاكرة التخزين المؤقت KV الخاصة بالطلب الجديد ستتناسب مع الذاكرة المتوفرة عبر عمر الجيل الكامل. يؤدي التقليل من شأن أسباب نفاد الذاكرة إلى تعطل منتصف التسلسل؛ المبالغة في تقدير تجويع قائمة الانتظار دون داع. تستخدم الأنظمة الحديثة توزيعات طولية محددة ومخازن مؤقتة للحجز لموازنة هذه المخاطر.
التعبئة المسبقة المقسمة: مرحلة التعبئة المسبقة - معالجة موجه الإدخال الخاص بالمستخدم - مرتبطة بالحوسبة ويمكن أن تحتكر وحدة معالجة الرسومات، مما يؤدي إلى تأخير خطوات فك التشفير للتسلسلات الجاري تشغيلها بالفعل. تعمل التعبئة المسبقة المقطعة على تقسيم المطالبات الطويلة إلى حجم ثابت
Build Your Business OS Today
From freelancers to agencies, Mewayz powers 138,000+ businesses with 207 integrated modules. Start free, upgrade when you grow.
Create Free Account →Related Posts
جرب Mewayz مجانًا
منصة شاملة لإدارة العلاقات والعملاء، والفواتير، والمشاريع، والموارد البشرية، والمزيد. لا حاجة لبطاقة ائتمان.
الحصول على المزيد من المقالات مثل هذا
نصائح الأعمال الأسبوعية وتحديثات المنتج. مجانا إلى الأبد.
لقد اشتركت!
ابدأ في إدارة عملك بشكل أكثر ذكاءً اليوم.
انضم إلى 30,000+ شركة. خطة مجانية للأبد · لا حاجة لبطاقة ائتمان.
هل أنت مستعد لوضع هذا موضع التنفيذ؟
انضم إلى 30,000+ شركة تستخدم ميويز. خطة مجانية دائمًا — لا حاجة لبطاقة ائتمان.
ابدأ التجربة المجانية →مقالات ذات صلة
Hacker News
البدء في لغة Lisp المشتركة
Mar 10, 2026
Hacker News
تعقد أمازون اجتماعًا هندسيًا بعد الانقطاعات المتعلقة بالذكاء الاصطناعي
Mar 10, 2026
Hacker News
التخلص من الأسرار الجزيئية وراء السلوك الجماعي
Mar 10, 2026
Hacker News
LoGeR – إعادة بناء ثلاثية الأبعاد من مقاطع فيديو طويلة للغاية (DeepMind، UC Berkeley)
Mar 10, 2026
Hacker News
إظهار HN: كنت هنا – ارسم على ميزة التجوّل الافتراضي، ويمكن للآخرين العثور على رسوماتك
Mar 10, 2026
Hacker News
تجربة التمرير اللانهائية عديمة الفائدة
Mar 10, 2026
هل أنت مستعد لاتخاذ إجراء؟
ابدأ تجربة Mewayz المجانية اليوم
منصة أعمال شاملة. لا حاجة لبطاقة ائتمان.
ابدأ مجانًا →تجربة مجانية 14 يومًا · لا توجد بطاقة ائتمان · إلغاء في أي وقت