Hacker News

Batching tẹsiwaju lati awọn ipilẹ akọkọ (2025)

Batching tẹsiwaju lati awọn ipilẹ akọkọ (2025) Itupalẹ okeerẹ ti lilọsiwaju nfunni ni idanwo alaye ti awọn paati koko rẹ ati awọn ilolu to gbooro. Awọn agbegbe pataki ti Idojukọ Ifọrọwọrọ naa da lori: Awọn ilana mojuto ati...

6 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Batching Tẹsiwaju lati Awọn Ilana akọkọ (2025)

Batching titesiwaju jẹ ilana ṣiṣe eto itọka ti o ni agbara ti o mu iwọn iṣelọpọ ohun elo pọ si nipa fifi awọn ibeere tuntun sii sinu ipele iṣelọpọ ti nṣiṣe lọwọ ni akoko ti iho kan ti tu silẹ, imukuro awọn iyipo iṣiro laišišẹ laarin awọn iṣẹ. Loye rẹ lati awọn ipilẹ akọkọ ṣafihan idi ti o fi di faaji ipilẹ fun gbogbo eto ṣiṣe iṣẹ ṣiṣe giga AI ti a fi ranṣẹ ni iwọn ni 2025.

Kini Gangan Ṣe Batching Tesiwaju ati Kini idi ti Batching Static Ṣe kuna?

Lati mọriri batching lemọlemọfún, o gbọdọ kọkọ loye ohun ti o rọpo. Awọn ẹgbẹ batching aimi ti aṣa nọmba ti o wa titi ti awọn ibeere papọ, ṣe ilana wọn bi ẹyọkan kan, ati gba awọn ibeere tuntun nikan lẹhin ti gbogbo ipele ti pari. Aṣiṣe to ṣe pataki ni pe awọn awoṣe ede nla n ṣe awọn ami ami ti ipari oniyipada - ibeere kan le fopin si lẹhin awọn ami-ami 20 lakoko ti omiiran ninu ipele kanna n ṣiṣẹ fun 2,000. Gbogbo GPU ti o wa ninu iṣupọ joko laišišẹ nduro fun ọna ti o gunjulo lati pari ṣaaju iṣẹ tuntun eyikeyi le bẹrẹ.

Batching Tẹsiwaju, ti ṣe aṣaaju-ọna ni iwe ala-ilẹ 2022 "Orca: Eto Sisin Pipin fun Awọn awoṣe Ipilẹṣẹ Ayipada-Arapada,” fọ idiwọ yii patapata. O nṣiṣẹ niipele aṣetunṣekuku ju ipele ibeere lọ. Lẹhin gbogbo ẹyọkan ti o kọja nipasẹ awoṣe, oluṣeto ṣayẹwo boya eyikeyi ọkọọkan ti de ami ami-ipari ipari rẹ. Ti o ba ti ni, ti Iho ti wa ni lẹsẹkẹsẹ reclaimed ati ki o sọtọ si a queued ìbéèrè - ko si nduro, ko si egbin. Iṣakojọpọ ipele n yipada ni omi pẹlu gbogbo igbesẹ ipinnu, titọju iṣamulo ohun elo sunmo o pọju imọ-jinlẹ ni gbogbo igba.

Bawo ni Kaṣe KV Ṣe Ibaṣepọ Pẹlu Batching Tẹsiwaju ni Ipele Eto?

Kaṣe iye bọtini jẹ eto iranti ti o jẹ ki itọkasi transformer jẹ ki o ṣee ṣe. Fun gbogbo ami ti a ṣe ilana, awoṣe ṣe iṣiro awọn bọtini akiyesi ati awọn iye ti o gbọdọ wa ni idaduro ki awọn ami-ami ti o tẹle maṣe tun ṣe iṣiro laiṣe. Ninu eto batching aimi, ipin kaṣe KV jẹ taara: fi iranti pamọ ni ibamu si ipari gigun ti o pọju fun gbogbo ibeere ninu ipele.

Iyẹwu titesiwaju ṣe idiju eyi lọna didara. Nitoripe awọn ibeere wọle ati jade kuro ni ipele ni awọn akoko aisọtẹlẹ, eto naa ko le ṣaju-tẹlẹ sọtọ awọn bulọọki iranti contiguous ti o wa titi. Eyi ni deede idi ti vLLM's PagedAttention - ti a ṣe ni ọdun 2023 - di ailẹgbẹ lati batching tẹsiwaju ni awọn imuṣiṣẹ iṣelọpọ. PagedAttention yawo awoṣe paging iranti foju fojuhan lati awọn ọna ṣiṣe, pin kaṣe KV sinu awọn bulọọki ti kii ṣe itẹlọrun ti iwọn dogba. Awọn oju-iwe kaṣe ti ọna kan le tuka kaakiri iranti GPU gẹgẹ bi awọn oju-iwe iranti foju ti tuka kaakiri Ramu ti ara. Abajade jẹ isunmọ-odo iranti egbin lati pipin, eyiti o tumọ taara si awọn iwọn ipele ti o ga julọ ati iṣelọpọ giga laisi idoko-owo ohun elo afikun.

Kini Awọn ilana Iṣeto Iṣeto Kokoro Ti o Ṣe Iṣẹ Batching Tesiwaju?

Awọn ipinnu ṣiṣe eto agbedemeji agbedemeji mẹta ṣe akoso gbogbo eto batching ti nlọsiwaju:

  • Afihan asọtẹlẹ: Nigbati titẹ iranti ba ga ati pe ibeere pataki pataki tuntun kan de, oluṣeto gbọdọ pinnu boya lati ṣaju ilana-iṣe pataki-kekere ti nṣiṣẹ, paarọ kaṣe KV rẹ si Ramu Sipiyu, tabi ṣe iṣiro rẹ lati ibere nigbamii. Ipilẹṣẹ ti o da lori Swap ṣe itọju iṣiro ṣugbọn o nlo bandiwidi PCIe; recomputation asonu GPU cycles sugbon o pa iranti mọ.
  • Iṣakoso gbigba: Oluṣeto gbọdọ sọ asọtẹlẹ boya kaṣe KV ibeere tuntun yoo baamu ni iranti ti o wa ni gbogbo igbesi aye iran rẹ ni kikun. Underestimating fa jade-ti-iranti ipadanu aarin-ọkọọkan; overestimating starves awọn ti isinyi unnecessarily. Awọn ọna ṣiṣe ode oni lo awọn pinpin gigun profaili profaili ati awọn ifiṣura ifiṣura lati dọgbadọgba awọn ewu wọnyi.
  • Apejuwe ti a ti ṣaju: Ipele iṣaju - ṣiṣatunṣe itọsi titẹ sii olumulo — jẹ iṣiro-iṣiro ati pe o le ṣe monopolize GPU, idaduro awọn igbesẹ iyipada fun awọn ilana ti nṣiṣẹ tẹlẹ. Ipeju-iṣaaju ti a ti ya yapa awọn itọsi gigun sinu awọn ṣoki iwọn ti o wa titi ti o ni ibatan pẹlu awọn iterations decode, idinku akoko-si-àmi-akọkọ fun awọn olumulo nigbakanna ni idiyele ti iṣaju iṣaju iṣaju aise kekere kekere.
  • Ipele pataki: Awọn ibeere apakan imuṣiṣẹ ile-iṣẹ nipasẹ ipele SLA. Awọn ipe API ti o ni ifarabalẹ-airotẹlẹ ṣaju awọn iṣẹ ipele ti o dara julọ-akitiyan. Laisi ipele yii, iṣẹ ṣiṣe akopọ iwe gigun kan le dinku iriri olumulo ibaraenisepo fun awọn ọgọọgọrun awọn akoko nigbakanna.

"Lemọlemọfún batching does not jo mu losi - o restructures awọn aje awoṣe ti AI inference. Nipa fifi GPUs ti tẹdo ni aṣetunṣe granularity kuku ju ìbéèrè granularity, awọn oniṣẹ se aseyori 5–10× ti o ga munadoko iṣamulo lati aami hardware, eyi ti o jẹ awọn nikan tobi lefa wa lati din fun-àmi sìn owo ni 5. "

Bawo ni Awọn imuṣiṣẹ Aye-gidi Ṣe Diwọn Awọn anfani Iṣe?

Awọn abajade ala lati Anyscale, papọ pẹlu awọn ẹda ominira kọja awọn idile awoṣe lọpọlọpọ ni ọdun 2024, ṣe afihan igbagbogbo jiṣẹ batching lemọlemọfún laarin 23× ati 36× igbejade giga ti o ga julọ ni akawe si iyẹfun aimi aiṣedeede labẹ awọn ilana ijabọ ojulowo. Awọn anfani ni a sọ pupọ julọ nigbati iyatọ gigun ibeere ba ga - ni pato awọn ipo ti o ṣe afihan iṣelọpọ ibaraẹnisọrọ ibaraẹnisọrọ AI awọn iṣẹ ṣiṣe nibiti awọn ibeere olumulo wa lati awọn itusilẹ ọrọ-mẹta si awọn ifisilẹ iwe-ọpọlọpọ oju-iwe.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Latency sọ itan ti o ni itara diẹ sii. Akoko-si-akọkọ-tokini ilọsiwaju bosipo nitori eto naa ko duro de ipele aimi ni kikun lati pejọ ṣaaju ki o to bẹrẹ iṣaju. Lairi-àmi laarin si maa wa idurosinsin labẹ dede fifuye sugbon degrades gracefully labẹ ekunrere kuku ju collapsing, nitori awọn scheduler tesiwaju ṣiṣe siwaju siwaju lori gbogbo awọn ti nṣiṣe lọwọ lesese paapaa nigba ti isinyi gbooro jin. Fun awọn ile-iṣẹ ti n kọ awọn ẹya AI akoko gidi, ọna ibajẹ oore-ọfẹ yii nigbagbogbo ṣe pataki ni iṣowo ju awọn nọmba igbejade lọ.

Bawo ni Awọn Iṣowo Ṣe Le Waye Awọn Ilana Batching Tesiwaju Ni ikọja Itọkasi AI?

Ìjìnlẹ òye ti ayaworan ti o wa lẹhin batching lemọlemọfún - tun gba awọn orisun ni granularity ti o dara julọ ti o ṣeeṣe ki o tun fi wọn sọtọ lẹsẹkẹsẹ dipo ki o duro de ẹyọ iṣẹ-ọgbẹ kan lati pari - jẹ ipilẹ gbogbogbo fun eyikeyi eto ti n ṣakoso awọn ẹru iṣẹ lọpọlọpọ. Awọn ọna ṣiṣe iṣowo dojukọ ipenija kanna: awọn iṣẹ ṣiṣe ti awọn akoko ti o yatọ pupọ ti o nfigagba fun agbara iṣelọpọ pinpin kọja ṣiṣan iṣẹ CRM, adaṣe titaja, awọn opo gigun ti itupalẹ, ati awọn iṣẹ iṣowo e-commerce.

Mewayz lo imoye yii kọja OS iṣowo-module 207 rẹ, ti n ṣatunṣe awọn ẹru iṣẹ ṣiṣe ni agbara kọja iru ẹrọ iṣọpọ ti o lo nipasẹ awọn iṣowo 138,000 ni kariaye. Dipo ki o fi ipa mu awọn ẹgbẹ lati duro fun awọn akoko ijabọ ipele, awọn laini itẹwọgba itẹlera, tabi awọn ọwọ ohun elo ipalọlọ, Mewayz ṣe ilana awọn iṣẹlẹ iṣowo ni igbagbogbo - ifunni awọn abajade ti o pari lẹsẹkẹsẹ sinu awọn modulu isalẹ ni ọna ti oluṣeto batching lemọlemọfún kikọ sii awọn iho GPU ominira pada si isinyi ibeere. Abajade jẹ ilọsiwaju igbejade iwọnwọn ni awọn iṣẹ iṣowo gangan, kii ṣe awọn aṣepari nikan.

Awọn ibeere Nigbagbogbo

Ṣe batching lemọlemọfún kanna bii batching ti o ni agbara ni Ṣiṣẹsin TensorFlow?

Rárá. TensorFlow Serving's batching ti o ni agbara n ṣajọpọ awọn ibeere sinu awọn ipele ti iwọn oniyipada ti o da lori awọn ferese akoko ati ijinle isinyi, ṣugbọn o tun ṣe ilana ipele kọọkan ni atomiki lati ibẹrẹ si ipari. Batching lemọlemọfún n ṣiṣẹ ni igbesẹ iran ami ami kọọkan, ngbanilaaye akopọ ipele lati yi gbogbo kọja siwaju. Iyatọ ti granularity ni idi ti batching lemọlemọfún ṣaṣeyọri igbejade ti o ga ni pataki fun awọn iṣẹ ṣiṣe iran adaṣe ni pataki.

Ṣe batching lemọlemọfún nilo awọn ayipada faaji awoṣe?

Awọn ile-itumọ ẹrọ oluyipada boṣewa ko nilo iyipada. Batching lemọlemọfún ni imuse ni igbọkanle ni ipele iṣẹ nipasẹ awọn ayipada si oluṣeto itọkasi, oluṣakoso iranti, ati ekuro akiyesi. Bibẹẹkọ, diẹ ninu awọn iṣapeye - ni pataki PagedAttention - nilo awọn ekuro CUDA aṣa ti o rọpo awọn imuse akiyesi boṣewa, eyiti o jẹ idi ti iṣelọpọ-itẹsiwaju batching awọn ilana bi vLLM ati TensorRT-LLM kii ṣe awọn iyipada-silẹ fun awọn olupin ifọkansi idi gbogbogbo.

Ohun ti hardware inira idinwo lemọlemọfún batching ndin?

Bandiwidi GPU HBM ati agbara VRAM lapapọ jẹ awọn idiwọ akọkọ. Awọn caches KV ti o tobi ju nilo iranti diẹ sii, diwọn ilodiwọn to pọ julọ. Awọn asopọ asopọ bandiwidi giga-giga (NVLink, Infiniband) di pataki fun awọn imuṣiṣẹ pupọ-GPU nibiti kaṣe KV gbọdọ pin kaakiri awọn ẹrọ. Ni awọn agbegbe ti o ni ihamọ iranti, iwọn ibinu ti awọn iye kaṣe KV (lati FP16 si INT8 tabi INT4) gba agbara pada ni idiyele idiyele ibajẹ deede kekere ti o jẹ itẹwọgba fun awọn ohun elo iṣowo pupọ julọ.


Boya o n kọ awọn ẹya AI-agbara tabi orchestrating awọn iṣẹ iṣowo ti o nipọn kọja gbogbo eto-ajọ rẹ, ipilẹ ipilẹ jẹ aami kanna: imukuro akoko aiṣiṣẹ, gba agbara nigbagbogbo, ati ilana iṣẹ diẹ sii pẹlu awọn orisun ti o ni tẹlẹ. Mewayz fi ilana yẹn sinu adaṣe kọja awọn modulu iṣọpọ 207 - lati CRM ati iṣowo e-commerce si awọn atupale ati ifowosowopo ẹgbẹ - bẹrẹ ni $19 fun oṣu kan.

Ṣetan lati ṣiṣẹ iṣowo rẹ ni kikun bi? Bẹrẹ idanwo ọfẹ rẹ ni app.mewayz.com ki o wo bi awọn iṣowo 138,000 ṣe n ṣiṣẹ pẹlu ọgbọn pẹlu Mewayz.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime