Hacker News

पहले सिद्धांतों से निरंतर बैचिंग (2025)

पहले सिद्धांतों से निरंतर बैचिंग (2025) निरंतर का यह व्यापक विश्लेषण इसके कोर - मेवेज़ बिजनेस ओएस की विस्तृत जांच प्रदान करता है।

1 मिनट पढ़ा

Mewayz Team

Editorial Team

Hacker News

प्रथम सिद्धांतों से सतत बैचिंग (2025)

निरंतर बैचिंग एक गतिशील अनुमान शेड्यूलिंग तकनीक है जो एक स्लॉट खाली होने पर सक्रिय प्रोसेसिंग बैच में नए अनुरोध डालकर हार्डवेयर थ्रूपुट को अधिकतम करती है, जिससे नौकरियों के बीच निष्क्रिय गणना चक्र समाप्त हो जाते हैं। पहले सिद्धांतों से इसे समझने से पता चलता है कि यह 2025 में बड़े पैमाने पर तैनात प्रत्येक उच्च-प्रदर्शन एआई सेवा प्रणाली के लिए मूलभूत वास्तुकला क्यों बन गया है।

सतत बैचिंग वास्तव में क्या है और स्टेटिक बैचिंग विफल क्यों हुई?

निरंतर बैचिंग की सराहना करने के लिए, आपको पहले यह समझना होगा कि इसने क्या प्रतिस्थापित किया है। पारंपरिक स्थैतिक बैचिंग एक निश्चित संख्या में अनुरोधों को एक साथ समूहित करती है, उन्हें एक इकाई के रूप में संसाधित करती है, और पूरे बैच के समाप्त होने के बाद ही नए अनुरोध स्वीकार करती है। गंभीर दोष यह है कि बड़े भाषा मॉडल परिवर्तनीय लंबाई के टोकन उत्पन्न करते हैं - एक अनुरोध 20 टोकन के बाद समाप्त हो सकता है जबकि उसी बैच में दूसरा 2,000 के लिए चलता है। क्लस्टर में प्रत्येक GPU किसी भी नए कार्य के शुरू होने से पहले सबसे लंबे अनुक्रम के पूरा होने की प्रतीक्षा में निष्क्रिय रहता है।

सतत बैचिंग, 2022 के ऐतिहासिक पेपर "ओर्का: ट्रांसफॉर्मर-आधारित जेनरेटिव मॉडल के लिए एक वितरित सर्विंग सिस्टम" में अग्रणी, इस बाधा को पूरी तरह से तोड़ देती है। यह अनुरोध स्तर के बजाय पुनरावृत्ति स्तर पर संचालित होता है। मॉडल के माध्यम से प्रत्येक फॉरवर्ड पास के बाद, शेड्यूलर जांचता है कि कोई अनुक्रम अपने अनुक्रम के अंत टोकन तक पहुंच गया है या नहीं। यदि ऐसा है, तो उस स्लॉट को तुरंत पुनः प्राप्त कर लिया जाता है और कतारबद्ध अनुरोध को सौंपा जाता है - कोई प्रतीक्षा नहीं, कोई बर्बादी नहीं। प्रत्येक डिकोड चरण के साथ बैच संरचना तेजी से बदलती है, जिससे हार्डवेयर उपयोग हर समय सैद्धांतिक अधिकतम के करीब रहता है।

केवी कैश सिस्टम स्तर पर निरंतर बैचिंग के साथ कैसे इंटरैक्ट करता है?

की-वैल्यू कैश मेमोरी संरचना है जो ट्रांसफार्मर अनुमान को ट्रैक करने योग्य बनाती है। संसाधित किए गए प्रत्येक टोकन के लिए, मॉडल ध्यान कुंजी और मानों की गणना करता है जिन्हें बनाए रखा जाना चाहिए ताकि बाद के टोकन अनावश्यक गणना को न दोहराएं। एक स्थिर बैचिंग प्रणाली में, केवी कैश आवंटन सीधा है: बैच में प्रत्येक अनुरोध के लिए अधिकतम अनुक्रम लंबाई के अनुपात में मेमोरी आरक्षित करें।

💡 क्या आप जानते हैं?

Mewayz एक प्लेटफ़ॉर्म में 8+ बिजनेस टूल्स की जगह लेता है

सीआरएम · इनवॉइसिंग · एचआर · प्रोजेक्ट्स · बुकिंग · ईकॉमर्स · पीओएस · एनालिटिक्स। निःशुल्क सदैव योजना उपलब्ध।

निःशुल्क प्रारंभ करें →

निरंतर बैचिंग इसे खूबसूरती से जटिल बनाती है। क्योंकि अनुरोध अप्रत्याशित समय पर बैच में प्रवेश करते हैं और बाहर निकलते हैं, सिस्टम निश्चित सन्निहित मेमोरी ब्लॉक को पूर्व-आवंटित नहीं कर सकता है। यही कारण है कि वीएलएलएम का पेजेड अटेंशन - 2023 में पेश किया गया - उत्पादन परिनियोजन में निरंतर बैचिंग से अविभाज्य बन गया। PagedAttention ऑपरेटिंग सिस्टम से वर्चुअल मेमोरी पेजिंग मॉडल उधार लेता है, KV कैश को समान आकार के गैर-सन्निहित ब्लॉकों में विभाजित करता है। अनुक्रम के कैश पेजों को जीपीयू मेमोरी में वैसे ही फैलाया जा सकता है जैसे वर्चुअल मेमोरी पेज भौतिक रैम में बिखरे होते हैं। परिणाम विखंडन से लगभग शून्य मेमोरी बर्बादी है, जो अतिरिक्त हार्डवेयर निवेश के बिना सीधे उच्च बैच आकार और उच्च थ्रूपुट में तब्दील हो जाता है।

कोर शेड्यूलिंग तंत्र क्या हैं जो निरंतर बैचिंग कार्य करते हैं?

तीन अन्योन्याश्रित शेड्यूलिंग निर्णय प्रत्येक सतत बैचिंग प्रणाली को नियंत्रित करते हैं:

प्रीएम्प्शन नीति: जब मेमोरी दबाव अधिक होता है और एक नया उच्च-प्राथमिकता अनुरोध आता है, तो शेड्यूलर को यह तय करना होगा कि क्या चल रहे कम-प्राथमिकता अनुक्रम को प्री-एम्प्ट किया जाए, इसके केवी कैश को सीपीयू रैम में स्वैप किया जाए, या बाद में स्क्रैच से इसकी पुन: गणना की जाए। स्वैप-आधारित प्रीएम्प्शन गणना को सुरक्षित रखता है लेकिन PCIe बैंडविड्थ का उपभोग करता है; पुनर्गणना GPU चक्र को बर्बाद करती है लेकिन मेमोरी को साफ़ रखती है।

प्रवेश नियंत्रण: शेड्यूलर को यह अनुमान लगाना होगा कि नए अनुरोध का केवी कैश उसके पूर्ण पीढ़ी के जीवनकाल में उपलब्ध मेमोरी में फिट होगा या नहीं। स्मृति से बाहर होने के कारणों को कम आंकने से क्रम के मध्य में क्रैश हो जाता है; अधिक अनुमान लगाने से कतार अनावश्यक रूप से भूखी हो जाती है। आधुनिक सिस्टम इन जोखिमों को संतुलित करने के लिए प्रोफाइल लंबाई वितरण और आरक्षण बफ़र्स का उपयोग करते हैं।

खंडित प्रीफ़िल: प्रीफ़िल चरण - उपयोगकर्ता के इनपुट प्रॉम्प्ट को संसाधित करना - गणना-बाध्य है और पहले से चल रहे अनुक्रमों के लिए डिकोड चरणों में देरी करते हुए, GPU पर एकाधिकार कर सकता है। खंडित प्रीफ़िल लंबे संकेतों को निश्चित आकार में विभाजित करता है

Ready to Simplify Your Operations?

Whether you need CRM, invoicing, HR, or all 207 modules — Mewayz has you covered. 138K+ businesses already made the switch.

Get Started Free →

Mewayz मुफ़्त आज़माएं

सीआरएम, इनवॉइसिंग, प्रोजेक्ट्स, एचआर और अधिक के लिए ऑल-इन-वन प्लेटफॉर्म। कोई क्रेडिट कार्ड आवश्यक नहीं।

आज ही अपने व्यवसाय का प्रबंधन अधिक स्मार्ट तरीके से शुरू करें।

30,000+ व्यवसायों से जुड़ें। सदैव मुफ़्त प्लान · क्रेडिट कार्ड की आवश्यकता नहीं।

क्या यह उपयोगी पाया गया? इसे शेयर करें।

क्या आप इसे व्यवहार में लाने के लिए तैयार हैं?

30,000+ व्यवसायों में शामिल हों जो मेवेज़ का उपयोग कर रहे हैं। सदैव निःशुल्क प्लान — कोई क्रेडिट कार्ड आवश्यक नहीं।

मुफ़्त ट्रायल शुरू करें →

कार्रवाई करने के लिए तैयार हैं?

आज ही अपना मुफ़्त Mewayz ट्रायल शुरू करें

ऑल-इन-वन व्यवसाय प्लेटफॉर्म। क्रेडिट कार्ड की आवश्यकता नहीं।

निःशुल्क प्रारंभ करें →

14-दिन का निःशुल्क ट्रायल · क्रेडिट कार्ड नहीं · कभी भी रद्द करें