Hacker News

Nepārtraukta komplektēšana no pirmajiem principiem (2025)

Nepārtraukta komplektēšana no pirmajiem principiem (2025) Šī visaptverošā nepārtrauktā analīze piedāvā detalizētu tās galveno komponentu un plašākas ietekmes pārbaudi. Galvenās fokusa jomas Diskusijas centrā ir: Galvenie mehānismi un...

11 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Nepārtraukta komplektēšana no pirmajiem principiem (2025)

Nepārtraukta komplektēšana ir dinamisku secinājumu plānošanas paņēmiens, kas maksimāli palielina aparatūras caurlaidspēju, ievietojot jaunus pieprasījumus aktīvajā apstrādes paketē brīdī, kad atbrīvojas slots, novēršot dīkstāves skaitļošanas ciklus starp darbiem. Izprotot to no pirmajiem principiem, atklājas, kāpēc tā ir kļuvusi par pamata arhitektūru katrai augstas veiktspējas AI apkalpošanas sistēmai, kas tiks plaši ieviesta 2025. gadā.

Kas īsti ir nepārtraukta komplektēšana un kāpēc statiskā pakešu komplektēšana neizdevās?

Lai novērtētu nepārtrauktu pakešu kārtošanu, vispirms ir jāsaprot, ko tā aizstāj. Tradicionālā statiskā pakešu grupēšana grupē noteiktu skaitu pieprasījumu kopā, apstrādā tos kā vienu vienību un pieņem jaunus pieprasījumus tikai pēc tam, kad ir pabeigta visa grupa. Būtisks trūkums ir tas, ka lielie valodu modeļi ģenerē mainīga garuma marķierus — viens pieprasījums var beigties pēc 20 marķieriem, bet cits tajā pašā partijā tiek izpildīts par 2000. Katrs klastera GPU atrodas dīkstāvē un gaida, līdz tiks pabeigta garākā secība, pirms var sākt jaunu darbu.

Nepārtraukta pakešu sadalīšana, kas tika aizsākta nozīmīgākajā 2022. gada dokumentā “Orca: A Distributed Serving System for Transformer-Based Generative Models”, pilnībā pārtrauc šo ierobežojumu. Tas darbojas iterācijas līmenī, nevis pieprasījuma līmenī. Pēc katras pārejas caur modeli plānotājs pārbauda, ​​vai kāda secība ir sasniegusi savu secības beigu marķieri. Ja tā ir, šī vieta tiek nekavējoties atgūta un piešķirta rindā esošam pieprasījumam — nav jāgaida, nav jātērē. Partijas sastāvs vienmērīgi mainās ar katru atšifrēšanas darbību, vienmēr saglabājot aparatūras izmantošanu tuvu teorētiskajam maksimumam.

Kā KV kešatmiņa mijiedarbojas ar nepārtrauktu komplektēšanu sistēmas līmenī?

Atslēgas vērtību kešatmiņa ir atmiņas struktūra, kas padara transformatora secinājumus izsekojamu. Katram apstrādātajam marķierim modelis aprēķina uzmanības atslēgas un vērtības, kas jāsaglabā, lai nākamie marķieri neatkārtotu liekus aprēķinus. Statiskā pakešu komplektēšanas sistēmā KV kešatmiņas piešķiršana ir vienkārša: rezervējiet atmiņu proporcionāli maksimālajam secības garumam katram partijas pieprasījumam.

Nepārtraukta komplektēšana to eleganti sarežģī. Tā kā pieprasījumi tiek ievadīti un iziet no partijas neparedzamā laikā, sistēma nevar iepriekš piešķirt fiksētos blakus esošos atmiņas blokus. Tieši tāpēc vLLM 2023. gadā ieviestā PagedAttention sistēma kļuva neatdalāma no nepārtrauktas pakešu komplektēšanas ražošanas izvietošanā. PagedAttention aizņem virtuālās atmiņas peidžeru modeli no operētājsistēmām, sadalot KV kešatmiņu vienāda lieluma nesaistītos blokos. Secības kešatmiņas lapas var būt izkaisītas GPU atmiņā tāpat kā virtuālās atmiņas lapas ir izkaisītas fiziskajā RAM. Rezultāts ir gandrīz nulles atmiņas zudums sadrumstalotības dēļ, kas tieši nozīmē lielāku partijas lielumu un lielāku caurlaidspēju bez papildu ieguldījumiem aparatūrā.

Kādi ir galvenie plānošanas mehānismi, kas nodrošina nepārtrauktas komplektēšanas darbību?

Trīs savstarpēji atkarīgi plānošanas lēmumi regulē katru nepārtrauktu pakešu sistēmu:

  • Priekšpieņemšanas politika: ja atmiņas apjoms ir augsts un tiek saņemts jauns augstas prioritātes pieprasījums, plānotājam ir jāizlemj, vai izmantot zemas prioritātes secību, nomainīt tās KV kešatmiņu uz CPU RAM vai vēlāk pārrēķināt to no jauna. Uz mijmaiņu balstīta priekšrocība saglabā aprēķinus, bet patērē PCIe joslas platumu; Pārrēķināšana iznieko GPU ciklus, bet saglabā tīru atmiņu.
  • Piekļuves kontrole: plānotājam ir jāparedz, vai jauna pieprasījuma KV kešatmiņa ietilps pieejamajā atmiņā visā tā paaudzes darbības laikā. Nepietiekams novērtējums izraisa avārijas ārpus atmiņas secības vidū; pārvērtēšana liek rindu badā. Mūsdienu sistēmas izmanto profilētu garuma sadalījumu un rezervācijas buferus, lai līdzsvarotu šos riskus.
  • Sadalīta priekšaizpilde: priekšaizpildīšanas fāze — lietotāja ievades uzvednes apstrāde — ir saistīta ar aprēķiniem un var monopolizēt GPU, aizkavējot jau darbojošos secību atšifrēšanas darbības. Sadalītā priekšaizpilde sadala garās uzvednes fiksēta lieluma gabalos, kas ir savīti ar dekodēšanas iterācijām, samazinot laiku līdz pirmā marķiera latentumam vienlaicīgiem lietotājiem uz nedaudz zemākas neapstrādātās pirmsaizpildes caurlaides spējas.
  • Prioritārā rinda: uzņēmumu izvietošanas pieprasījumus segmentējiet pēc SLA līmeņa. Latentīvā API izsauc vislabākos pakešu darbus. Bez šī slāņa viens garš dokumenta apkopošanas uzdevums var pasliktināt interaktīvo lietotāja pieredzi simtiem vienlaicīgu sesiju.

"Nepārtraukta komplektēšana ne tikai uzlabo caurlaidspēju — tā pārstrukturē mākslīgā intelekta izsecināšanas ekonomisko modeli. GPU aizņemot iterācijas precizitāti, nevis pieprasījuma precizitāti, operatori nodrošina 5–10 reizes lielāku identiskas aparatūras efektivitāti, kas ir vienīgā lielākā pieejamā svira, lai samazinātu izmaksas par

apkalpošanu5."

Kā izvietošana reālajā pasaulē mēra veiktspējas pieaugumu?

Etalona rezultāti no Anyscale kopā ar neatkarīgām reprodukcijām vairākās modeļu saimēs 2024. gadā konsekventi parāda nepārtrauktu pakešu kārtošanu, nodrošinot par 23 reizēm līdz 36 reizēm lielāku caurlaidspēju, salīdzinot ar naivu statisku pakešu grupēšanu reālistisku satiksmes modeļu apstākļos. Ieguvumi ir visizteiktākie, ja pieprasījuma garuma novirze ir liela — tieši tādi apstākļi, kas raksturo ražošanas sarunvalodas AI darba slodzi, kur lietotāju vaicājumi svārstās no trīs vārdu uzvednēm līdz vairāku lappušu dokumentu iesniegšanai.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Latentums stāsta par niansētāku stāstu. Laiks līdz pirmā marķieri ievērojami uzlabojas, jo sistēma vairs negaida pilnas statiskās partijas salikšanu pirms priekšaizpildīšanas. Starpmarķieru latentums saglabājas stabils pie mērenas slodzes, taču piesātinājuma gadījumā tas graciozi pasliktinās, nevis sakļaujas, jo plānotājs turpina virzīties uz priekšu visās aktīvajās sekvencēs pat tad, ja rinda palielinās. Uzņēmumiem, kas veido reāllaika AI funkcijas, šī graciozā degradācijas līkne bieži vien ir komerciāli svarīgāka nekā maksimālā caurlaidspēja.

Kā uzņēmumi var piemērot nepārtrauktas komplektēšanas principus, kas pārsniedz AI secinājumus?

Arhitektūras ieskats nepārtrauktā pakešu komplektēšanā — atgūt resursus pēc iespējas smalkākā precizitātē un nekavējoties tos atkārtoti piešķirt, nevis gaidīt, kamēr rupja darba vienība tiks pabeigta, ir vispārējs princips jebkurai sistēmai, kas pārvalda neviendabīgas darba slodzes. Uzņēmējdarbības operētājsistēmas saskaras ar vienu un to pašu izaicinājumu: ļoti dažāda ilguma uzdevumi, kas sacenšas par kopīgu apstrādes jaudu visās CRM darbplūsmās, mārketinga automatizācijā, analītikas cauruļvados un e-komercijas darbībās.

Mewayz izmanto šo filozofiju savā 207 moduļu biznesa operētājsistēmā, dinamiski maršrutējot operatīvo darba slodzi integrētā platformā, ko izmanto 138 000 uzņēmumu visā pasaulē. Tā vietā, lai piespiestu komandas gaidīt pakešu atskaites ciklus, secīgas apstiprināšanas rindas vai bloķētu rīku nodošanu, Mewayz nepārtraukti apstrādā biznesa notikumus — pabeigtos izvadus nekavējoties ievada pakārtotajos moduļos, kā nepārtrauktas pakešu plānotājs padod atbrīvotos GPU slotus atpakaļ uz pieprasījumu rindu. Rezultāts ir izmērāms caurlaidspējas uzlabojums faktiskajās uzņēmējdarbības operācijās, nevis tikai etalonos.

Bieži uzdotie jautājumi

Vai TensorFlow apkalpošanā nepārtraukta pakešu grupēšana ir tāda pati kā dinamiskā pakešu veidošana?

Nē. TensorFlow Serving dinamiskā pakešu kārtošana apkopo pieprasījumus mainīga lieluma partijās, pamatojoties uz laika logiem un rindas dziļumu, taču tā joprojām apstrādā katru partiju atomiski no sākuma līdz beigām. Nepārtraukta pakešu komplektēšana darbojas atsevišķā marķiera ģenerēšanas posmā, ļaujot partijas sastāvam mainīt katru uz priekšu piespēli. Detalitātes atšķirība ir iemesls, kāpēc nepārtraukta pakešu veidošana nodrošina ievērojami lielāku caurlaidspēju tieši autoregresīvās ģenerēšanas darba slodzēm.

Vai nepārtrauktai pakešu veidošanai ir nepieciešamas modeļa arhitektūras izmaiņas?

Standarta transformatoru arhitektūrām nav nepieciešamas izmaiņas. Nepārtraukta komplektēšana tiek pilnībā ieviesta apkalpošanas slānī, veicot izmaiņas secinājumu plānotājā, atmiņas pārvaldniekā un uzmanības kodolā. Tomēr dažām optimizācijām — īpaši PagedAttention — ir nepieciešami pielāgoti CUDA kodoli, kas aizstāj standarta uzmanības ieviešanu, tāpēc ražošanas līmeņa nepārtrauktas pakešu veidošanas ietvari, piemēram, vLLM un TensorRT-LLM, nevar aizstāt vispārējas nozīmes secinājumu serverus.

Kādi aparatūras ierobežojumi ierobežo nepārtrauktas komplektēšanas efektivitāti?

Galvenie ierobežojumi ir GPU HBM joslas platums un kopējā VRAM jauda. Lielākas KV kešatmiņas prasa vairāk atmiņas, ierobežojot maksimālo vienlaicību. Liela joslas platuma starpsavienojumi (NVLink, Infiniband) kļūst ļoti svarīgi vairāku GPU izvietošanai, kur KV kešatmiņa ir jāsadala starp ierīcēm. Vidēs ar ierobežotu atmiņu KV kešatmiņas vērtību agresīva kvantēšana (no FP16 līdz INT8 vai INT4) atgūst ietilpību uz neliela precizitātes samazināšanās rēķina, kas ir pieņemams lielākajai daļai komerciālu lietojumprogrammu.


Neatkarīgi no tā, vai veidojat ar AI darbināmas funkcijas vai organizējat sarežģītas biznesa darbības visā organizācijā, pamatprincips ir identisks: izslēdziet dīkstāves laiku, nepārtraukti atgūstiet jaudu un apstrādājiet vairāk darba ar jau esošajiem resursiem. Mewayz šo principu īsteno 207 integrētajos moduļos — no CRM un e-komercijas līdz analītikai un komandas sadarbībai, sākot no 19 $ mēnesī.

Vai esat gatavs vadīt savu uzņēmumu ar pilnu jaudu? Sāciet savu bezmaksas izmēģinājuma periodu vietnē app.mewayz.com un uzziniet, kā 138 000 uzņēmumu darbojas gudrāk, izmantojot Mewayz.

.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime