Nuolatinis paketų rinkimas iš pirmųjų principų (2025 m.)
Nuolatinis paketų rinkimas iš pirmųjų principų (2025 m.) Ši išsami nuolatinės analizės analizė siūlo išsamų pagrindinių komponentų ir platesnių pasekmių tyrimą. Pagrindinės dėmesio sritys Diskusijos centre: Pagrindiniai mechanizmai ir...
Mewayz Team
Editorial Team
Nuolatinis partijų kūrimas iš pirmųjų principų (2025 m.)
Nuolatinis paketų sudarymas yra dinaminis išvadų planavimo metodas, kuris maksimaliai padidina aparatinės įrangos pralaidumą įterpiant naujas užklausas į aktyvų apdorojimo paketą tuo metu, kai atsilaisvina lizdas, pašalinant tuščiosios eigos skaičiavimo ciklus tarp užduočių. Supratus tai iš pirmų principų, paaiškėja, kodėl ji tapo pagrindine kiekvienos didelio našumo AI aptarnavimo sistemos, kuri bus įdiegta 2025 m., architektūra.
Kas iš tikrųjų yra nenutrūkstamas paketų kūrimas ir kodėl statinis paketų kūrimas nepavyko?
Norėdami įvertinti nuolatinį paketų tvarkymą, pirmiausia turite suprasti, ką jis pakeitė. Tradicinis statinis paketų sudarymas sugrupuoja fiksuotą užklausų skaičių, apdoroja jas kaip vieną vienetą ir priima naujas užklausas tik baigus visą paketą. Esminis trūkumas yra tas, kad dideli kalbų modeliai generuoja kintamo ilgio prieigos raktus – viena užklausa gali baigtis po 20 žetonų, o kita toje pačioje partijoje vykdoma 2000. Kiekvienas klasterio GPU neveikia ir laukia ilgiausios sekos pabaigos, kad būtų galima pradėti bet kokį naują darbą.
Nuolatinis paketų rinkimas, pradėtas 2022 m. paskelbtame reikšmingame dokumente „Orca: paskirstyta aptarnavimo sistema transformatoriumi pagrįstiems generatyviems modeliams“, visiškai pažeidžia šį apribojimą. Jis veikia iteracijos lygiu, o ne užklausos lygiu. Po kiekvieno pirminio praėjimo per modelį planuotojas patikrina, ar kuri nors seka pasiekė savo sekos pabaigos prieigos raktą. Jei taip, ta vieta nedelsiant atgaunama ir priskiriama eilėje esančiai užklausai – jokio laukimo, jokio švaistymo. Partijos sudėtis sklandžiai keičiasi su kiekvienu dekodavimo žingsniu, todėl techninės įrangos panaudojimas visada yra artimas teoriniam maksimumui.
Kaip KV talpykla sąveikauja su nuolatiniu paketų keitimu sistemos lygiu?
Raktų reikšmių talpykla yra atminties struktūra, kuri leidžia sekti transformatoriaus išvadas. Kiekvienam apdorotam žetonui modelis apskaičiuoja dėmesio raktus ir reikšmes, kurios turi būti išsaugotos, kad vėlesni žetonai nekartotų perteklinio skaičiavimo. Statinėje paketų siuntimo sistemoje KV talpyklos paskirstymas yra nesudėtingas: rezervuokite atmintį, proporcingą maksimaliai sekos ilgiui kiekvienai paketo užklausai.
Nuolatinis partijų rinkimas tai elegantiškai apsunkina. Kadangi užklausos patenka į paketą ir iš jos išeina nenuspėjamu laiku, sistema negali iš anksto paskirstyti fiksuotų gretimų atminties blokų. Būtent todėl vLLM „PagedAttention“, pristatytas 2023 m., tapo neatsiejamas nuo nuolatinio paketų siuntimo gamyboje. PagedAttention pasiskolina virtualios atminties ieškos modelį iš operacinių sistemų, padalijant KV talpyklą į negretimus vienodo dydžio blokus. Sekos talpyklos puslapiai gali būti išsklaidyti GPU atmintyje, kaip ir virtualios atminties puslapiai yra išsklaidyti fizinėje RAM. Rezultatas yra beveik nulinis atminties švaistymas dėl suskaidymo, o tai tiesiogiai reiškia didesnį paketų dydį ir didesnį pralaidumą be papildomų investicijų į aparatinę įrangą.
Kokie yra pagrindiniai planavimo mechanizmai, užtikrinantys nuolatinį partijų kūrimą?
Trys tarpusavyje susiję planavimo sprendimai valdo kiekvieną nepertraukiamą paketų sudarymo sistemą:
- Išankstinio naudojimo politika: kai atmintyje yra didelis krūvis ir gaunama nauja aukšto prioriteto užklausa, planuotojas turi nuspręsti, ar iš anksto užkirsti kelią vykdomai žemo prioriteto sekai, pakeisti jos KV talpyklą į procesoriaus RAM, ar vėliau ją iš naujo apskaičiuoti. Apsikeitimu pagrįsta prevencija išsaugo skaičiavimą, bet sunaudoja PCIe pralaidumą; perskaičiavimas eikvoja GPU ciklus, bet išlaiko atmintį švarią.
- Priėmimo kontrolė: planuotojas turi numatyti, ar naujos užklausos KV talpykla tilps į turimą atmintį per visą jos generavimo laikotarpį. Nepakankamas įvertinimas sukelia gedimus dėl atminties išeikvojimo viduryje; pervertinus be reikalo badoma eilė. Šiuolaikinės sistemos naudoja profiliuotus ilgio paskirstymus ir rezervavimo buferius, kad subalansuotų šią riziką.
- Išankstinis užpildymas: išankstinio užpildymo fazė – apdorojama naudotojo įvesties raginimas – yra susieta su skaičiavimu ir gali monopolizuoti GPU, uždelsdama jau vykdomų sekų dekodavimo veiksmus. Sugrupuotas išankstinis užpildymas padalija ilgus raginimus į fiksuoto dydžio dalis, sujungiamas su dekodavimo iteracijomis, todėl tuo pačiu metu naudotojams sutrumpėja laikas iki pirmojo prieigos rakto uždelsimo, o tai sumažina neapdoroto išankstinio užpildymo pralaidumą.
- Prioritetinė eilė: įmonės diegimo užklausas segmentuokite pagal SLA pakopą. Delsijai jautri API iškviečia geriausius paketinius darbus. Be šio sluoksnio viena ilga dokumento apibendrinimo užduotis gali pabloginti interaktyvią vartotojo patirtį šimtams vienu metu vykstančių seansų.
"Nuolatinis paketų kūrimas ne tik pagerina pralaidumą, bet ir pertvarko ekonominį dirbtinio intelekto išvadų modelį. Palaikydami GPU užimtus iteracijos detalumu, o ne prašymo detalumu, operatoriai pasiekia 5–10 kartų didesnį efektyvų identiškos aparatinės įrangos panaudojimą, o tai yra didžiausias svertas, leidžiantis sumažinti vieno žetono aptarnavimo išlaidas."
Kaip realaus pasaulio diegimas įvertina našumo padidėjimą?
Anyscale palyginamieji rezultatai kartu su nepriklausomomis kelių modelių šeimų reprodukcijomis 2024 m. nuolat rodo nepertraukiamą paketų siuntimą, užtikrinantį 23–36 kartus didesnį pralaidumą, palyginti su naiviu statiniu paketų rinkimu esant tikroviškiems srauto modeliams. Nauda ryškiausia, kai užklausos ilgio dispersija yra didelė – būtent tokios sąlygos apibūdina gamybos pokalbio AI darbo krūvius, kai naudotojų užklausos svyruoja nuo trijų žodžių raginimų iki kelių puslapių dokumentų pateikimo.
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →Latency pasakoja daugiau niuansų. Laikas iki pirmojo prieigos rakto žymiai pagerėjo, nes sistema nebelaukia, kol bus surinkta visa statinė partija, prieš pradėdama išankstinį užpildymą. Inter-žetonų delsa išlieka stabili esant vidutinei apkrovai, bet dailiai susilpnėja esant prisotinimui, o ne žlunga, nes planuotojas ir toliau daro pažangą visose aktyviose sekose net tada, kai eilė didėja. Įmonėms, kuriančiose realaus laiko dirbtinio intelekto funkcijas, ši grakšti degradacijos kreivė komerciniu požiūriu dažnai yra svarbesnė nei didžiausias pralaidumas.
Kaip įmonės gali taikyti nepertraukiamo paketų sudarymo principus, nesusijusius su AI išvadomis?
Nepertraukiamo paketavimo architektūrinė įžvalga – atgauti kuo smulkesnius išteklius ir nedelsiant juos perskirstyti, o ne laukti, kol baigsis stambiagrūdis darbo vienetas – yra bendras principas bet kuriai sistemai, valdančiai nevienalyčius darbo krūvius. Verslo operacinės sistemos susiduria su tuo pačiu iššūkiu: labai skirtingos trukmės užduotys, konkuruojančios dėl bendrų CRM darbo eigų apdorojimo pajėgumų, rinkodaros automatizavimo, analizės vamzdynų ir el. prekybos operacijų.
Mewayz taiko šią filosofiją savo 207 modulių verslo OS, dinamiškai nukreipdamas darbo krūvius integruotoje platformoje, kurią naudoja 138 000 įmonių visame pasaulyje. Užuot verčiau komandas laukti paketinių ataskaitų ciklų, nuoseklių patvirtinimo eilių ar įjungtų įrankių perdavimo, „Mewayz“ nuolat apdoroja verslo įvykius – užbaigtus išvestis iš karto tiekia į tolesnius modulius taip, kaip nuolatinis paketų planavimo įrankis grąžina atlaisvintus GPU lizdus atgal į užklausų eilę. Rezultatas – išmatuojamas realių verslo operacijų, o ne tik etalonų, pralaidumas.
Dažniausiai užduodami klausimai
Ar nenutrūkstamas paketų kūrimas yra tas pats, kas dinaminis paketų kūrimas naudojant „TensorFlow Serving“?
Ne. „TensorFlow Serving“ dinaminis paketų grupavimas surenka užklausas į kintamo dydžio paketus pagal laiko langus ir eilės gylį, bet vis tiek apdoroja kiekvieną partiją nuo pradžios iki pabaigos. Nepertraukiamas paketų keitimas veikia atskirame prieigos rakto generavimo etape, todėl partijos sudėtis gali keistis kiekvieną kartą. Detalumo skirtumas yra tai, kodėl nuolatinis paketų keitimas leidžia pasiekti žymiai didesnį pralaidumą, ypač naudojant automatinės regresinės generacijos darbo krūvius.
Ar nuolatiniam paketų sudarymui reikia keisti modelio architektūrą?
Standartinės transformatorių architektūros nereikia keisti. Pakeitus išvadų planuoklį, atminties tvarkyklę ir dėmesio branduolį, nuolatinis paketų tvarkymas visiškai įgyvendinamas aptarnavimo lygmenyje. Tačiau kai kuriems optimizavimo darbams, ypač PagedAttention, reikalingi pasirinktiniai CUDA branduoliai, pakeičiantys standartinius dėmesio diegimus, todėl gamybinio lygio nuolatinio paketavimo sistemos, pvz., vLLM ir TensorRT-LLM, nėra bendrosios paskirties išvadų serverių pakaitalai.
Kokie aparatūros apribojimai riboja nuolatinio paketų kūrimo efektyvumą?
GPU HBM pralaidumas ir bendra VRAM talpa yra pagrindiniai apribojimai. Didesnėms KV talpykloms reikia daugiau atminties, o tai riboja maksimalų lygiagretumą. Didelio pralaidumo jungtys (NVLink, Infiniband) tampa labai svarbios diegiant kelis GPU, kai KV talpykla turi būti paskirstyta visuose įrenginiuose. Aplinkose, kuriose yra ribota atmintis, agresyvus KV talpyklos verčių kvantavimas (nuo FP16 iki INT8 arba INT4) atkuria talpą nedideliu tikslumo pablogėjimu, kuris yra priimtinas daugumai komercinių programų.
Nesvarbu, ar kuriate dirbtinio intelekto funkcijas, ar organizuojate sudėtingas verslo operacijas visoje organizacijoje, pagrindinis principas yra identiškas: pašalinkite prastovos laiką, nuolat atgaukite pajėgumus ir atlikite daugiau darbo su jau turimais ištekliais. „Mewayz“ šį principą įgyvendina 207 integruotuose moduliuose – nuo CRM ir el. prekybos iki analizės ir komandos bendradarbiavimo – nuo 19 USD per mėnesį.
Pasirengę vykdyti savo verslą visu našumu? Pradėkite nemokamą bandomąją versiją adresu app.mewayz.com ir sužinokite, kaip 138 000 įmonių veikia išmaniau naudodami „Mewayz“.
We use cookies to improve your experience and analyze site traffic. Cookie Policy