Hacker News

Fizarana tsy tapaka avy amin'ny fitsipika voalohany (2025)

Fizarana tsy tapaka avy amin'ny fitsipika voalohany (2025) Ity famakafakana feno momba ny mitohy ity dia manolotra fandinihana amin'ny antsipiriany ny singa fototra ao aminy sy ny fiantraikany mivelatra kokoa. Sehatra fototra ifantohana Ny fifanakalozan-kevitra dia mifototra amin'ny: Mekanisma fototra sy...

9 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Fanambadiana mitohy avy amin'ny Fitsipika Voalohany (2025)

Ny batching mitohy dia teknikan'ny fandrindrana inferences mavitrika izay mampitombo ny fidiran'ny fitaovana amin'ny alàlan'ny fampidirana fangatahana vaovao ao anaty andiany mavitrika amin'ny fotoana ahafahan'ny slot iray, manafoana ny tsingerin'ny kajy tsy miasa eo anelanelan'ny asa. Ny fahatakarana azy avy amin'ny fitsipika voalohany dia manambara ny antony nahatonga azy ho maritrano fototra ho an'ny rafi-panompoana AI mahomby rehetra napetraka amin'ny ambaratonga amin'ny taona 2025.

Inona marina no atao hoe fitohizan'ny batching ary nahoana no tsy nahomby ny batching static?

Mba hankasitrahana ny fanangonana mitohy dia tsy maintsy azonao aloha izay nosoloiny. Manangona fangatahana raikitra maromaro miaraka, manodina azy ireo ho vondrona tokana, ary manaiky fangatahana vaovao ihany rehefa vita ny andiany manontolo. Ny lesoka lehibe dia ny hoe ny maodely fiteny lehibe dia miteraka mari-pamantarana amin'ny halavany miovaova - ny fangatahana iray dia mety hifarana aorian'ny mari-pamantarana 20 raha misy iray hafa ao amin'ny andiany mitovy amin'ny 2,000. Mipetra-poana ny GPU rehetra ao amin'ny cluster miandry ny filaharana lava indrindra ho vita alohan'ny hanombohan'ny asa vaovao.

Ny fanangonana tsy tapaka, izay nisava lalana tao amin'ny taratasy manan-tantara 2022 "Orca: Rafitra tolotra zaraina ho an'ny maodely Generative Miorina amin'ny Transformer", dia manapaka tanteraka an'io teritery io. Izy io dia miasa amin'ny ambaratonga famerimberenana fa tsy amin'ny ambaratonga fangatahana. Aorian'ny fandalovan'ny fandrosoan'ny tsirairay amin'ny maodely, ny mpandrindra dia manamarina raha misy filaharana tonga amin'ny mari-pamantarana faran'ny filaharana. Raha misy izany, dia averina avy hatrany io slot io ary apetraka amin'ny fangatahana milahatra - tsy misy fiandrasana, tsy misy fandaniam-poana. Miova tsikelikely ny fitambaran'ny andiany isaky ny dingana decode, mitazona ny fampiasana fitaovana manakaiky ny ambony indrindra amin'ny teorika amin'ny fotoana rehetra.

Ahoana no ifandraisan'ny KV Cache amin'ny fanangonana mitohy amin'ny ambaratongan'ny rafitra?

Ny cache sanda manan-danja dia ny firafitry ny fitadidiana izay mahatonga ny fanatsoahan-kevitry ny transformer ho azo trandrahana. Ho an'ny mari-pamantarana voahodina rehetra, ny maodely dia manisa ny fanalahidin'ny fifantohana sy ny soatoavina izay tsy maintsy tazonina mba tsy hamerina ny kajy mihoa-pampana ny famantarana manaraka. Amin'ny rafitra fanangonam-bokatra tsy miovaova, ny fizarana cache KV dia tsotra: mitahiry fitadidiana mifanandrify amin'ny halavan'ny filaharana ambony indrindra ho an'ny fangatahana rehetra ao amin'ny andiany.

Manasarotra izany amin'ny fomba kanto ny fanangonana tsy tapaka. Satria ny fangatahana miditra sy mivoaka ao amin'ny andiany amin'ny fotoana tsy ampoizina, ny rafitra dia tsy afaka mametraka mialoha ireo sakana fitadidiana raikitra mifanakaiky. Izany indrindra no nahatonga ny PagedAttention an'ny vLLM - nampidirina tamin'ny taona 2023 - lasa tsy afa-misaraka amin'ny fanangonana mitohy amin'ny fametrahana famokarana. PagedAttention dia mindrana ny modelim-pejy fitadidiana virtoaly avy amin'ny rafitra miasa, mizara ny cache KV ho sakana tsy mifanakaiky mitovy habe. Ny pejin'ny cache an'ny filaharana dia azo miparitaka manerana ny fitadidiana GPU tahaka ny fiparitahan'ny pejy fitadidiana virtoaly manerana ny RAM ara-batana. Ny vokatr'izany dia fako fitadidiana manakaiky ny aotra avy amin'ny fizarazarana, izay midika mivantana amin'ny haben'ny andiany avo kokoa sy ny vokatra avo kokoa tsy misy fampiasam-bola fanampiny.

Inona no Mekanisma fandrindrana fototra mahatonga ny fandatsahana tsy tapaka?

Fanapahan-kevitra telo mifampiankina amin'ny fandaharam-potoana no mifehy ny rafi-pandaminana mitohy rehetra:

  • Politika mialoha: Rehefa miakatra ny fanerena fitadidiana ary tonga ny fangatahana ambony laharam-pahamehana vaovao, dia tsy maintsy manapa-kevitra ny mpandrindra na hanakana ny filaharana ambany laharam-pahamehana mandeha, na hanova ny cache KV ho amin'ny CPU RAM, na hamerina izany avy hatrany any aoriana. Ny preemption mifototra amin'ny swap dia mitahiry kajy fa mandany ny bandwidth PCIe; Mandany tsingerin'ny GPU ny recomputation fa mitazona fitadidiana madio.
  • Fifehezana ny fidirana: Ny mpandrindra dia tsy maintsy maminavina raha hifanaraka amin'ny fitadidiana azo ampiasaina mandritra ny androm-piainany manontolo ny cache KV an'ny fangatahana vaovao. Ny fanambaniana dia miteraka fianjerana tsy misy fitadidiana eo afovoan'ny filaharana; manombana loatra ny filaharana tsy ilaina. Ny rafitra maoderina dia mampiasa fizarana halavan'ny profil sy buffer famandrihana mba handanjalanjana ireo loza ireo.
  • Fameno mialoha: Ny dingana mialoha ny famenoana — ny fanodinana ny fampandrenesan'ny mpampiasa — dia mifamatotra amin'ny kajy ary afaka ampihimamba ny GPU, manemotra ny dingana decode ho an'ny filaharana efa mandeha. Ny famenoana efa nopotehina dia manasaraka ny bitsika lava ho amin'ny habe raikitra mifanelanelana miaraka amin'ny famerimberenan'ny kaody, mampihena ny fahatarana amin'ny fotoana ho an'ny token'ny voalohany ho an'ireo mpampiasa miara-miasa amin'ny vidin'ny famenoana prefill manta ambany kokoa.
  • Filaharana laharam-pahamehana: Fangatahana fizarana fizarana orinasa araka ny ambaratonga SLA. Ny API saro-pady amin'ny latency dia miantso asa andiany amin'ny ezaka tsara indrindra. Raha tsy misy an'io sosona io, ny asa famintinana antontan-taratasy lava iray dia mety hanimba ny traikefan'ny mpampiasa ifandrimbonana mandritra ny fotoam-pivoriana an-jatony.

"Tsy vitan'ny manatsara ny fampandehanan-draharaha fotsiny ny batching - mamerina mandrindra ny maodely ara-toekarena amin'ny inference AI. Amin'ny fitazonana ny GPU ao amin'ny granularity fanodinana fa tsy ny fangatahana granularity, ny mpandraharaha dia mahatratra 5-10 × fampiasana mahomby kokoa amin'ny fitaovana mitovy, izay lever lehibe indrindra azo ampiasaina hampihenana ny vidin'ny serivisy isaky ny token amin'ny taona 2025."

Ahoana no fomba fandrefesana ny Fampiasana Eran-tany?

Ny valin'ny benchmark avy amin'ny Anyscale, miaraka amin'ny famokarana tsy miankina amin'ny fianakaviana maodely maro amin'ny 2024, dia mampiseho tsy tapaka ny fandefasana batching eo anelanelan'ny 23 × ka hatramin'ny 36 × ambony kokoa raha oharina amin'ny batching naïve static eo ambanin'ny lamina fifamoivoizana tena izy. Ny tombony no tena voatonona rehefa lehibe ny fiovaovan'ny halavan'ny fangatahana — ireo fepetra tena mampiavaka ny enta-mavesatry ny AI amin'ny resaka famokarana izay misy ny fanontanian'ny mpampiasa manomboka amin'ny bitsika telo ka hatramin'ny fandefasana antontan-taratasy maromaro.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Latency dia mitantara tantara misongadina kokoa. Time-to-first-token dia mihatsara be satria ny rafitra dia tsy miandry andiana static feno hiangona alohan'ny hanombohan'ny prefill. Ny fahatarana inter-token dia mijanona ho marin-toerana eo ambanin'ny enta-mavesatry ny antonony saingy miharatsy tsara ao anatin'ny saturation fa tsy mirodana, satria ny mpandrindra dia manohy mandroso amin'ny filaharana mavitrika rehetra na dia mihamitombo aza ny filaharana. Ho an'ny orinasa manangana endri-javatra AI amin'ny fotoana tena izy, ity curve fanimbana mahafinaritra ity dia matetika manan-danja kokoa ara-barotra noho ny isa ambony indrindra.

Ahoana no fomba ahafahan'ny orinasa hampihatra ny fitsipi-pifehezana tsy tapaka ankoatra ny fahafantarana AI?

Ny fomba fijery ara-javakanto ao ambadiky ny fanangonana tsy tapaka — mamerina ny loharanon-karena amin'ny fomba faran'izay bitika indrindra ary avereno avy hatrany izany fa tsy miandry ny asa vita amin'ny voamadinika — dia fitsipika ankapobeny ho an'ny rafitra rehetra mitantana enta-mavesatra samihafa. Miatrika fanamby mitovy amin'izany ny rafitra fiasan'ny fandraharahana: ny asa amin'ny fotoana samy hafa tanteraka mifaninana amin'ny fahaiza-manaon'ny rehetra amin'ny fizotran'ny CRM, ny automatique amin'ny varotra, ny fantsona famakafakana, ary ny asa e-varotra.

Mewayz dia mampihatra an'io filôzôfia io amin'ny OS orinasa 207-module, mandeha amin'ny fomba mavitrika ny enta-mavesatra miasa manerana ny sehatra mitambatra ampiasain'ny orinasa 138,000 manerantany. Raha tokony hanery ny ekipa hiandry ny tsingerin'ny tatitra andiany, ny filaharana fankatoavana misesy, na ny fandefasana fitaovana siled, i Mewayz dia manao hetsika ara-barotra tsy tapaka - mamahana ny vokatra vita avy hatrany any amin'ny maodely midina amin'ny fomba famahanan'ny mpandrindra batching mitohy ny slot GPU afaka miverina amin'ny filaharana fangatahana. Ny vokatra azo refesina dia ny fanatsarana ny vokatra azo refesina amin'ny fampandehanan-draharaha tena izy, fa tsy ny mari-pamantarana fotsiny.

Fanontaniana matetika

Mitovy amin'ny fanangonana dynamique ao amin'ny TensorFlow Serving ve ny fanangonana mitohy?

Tsia. Ny batching dynamique an'ny TensorFlow Serving dia manangona ny fangatahana amin'ny andiany miovaova habe mifototra amin'ny fikandrana fotoana sy ny halalin'ny filaharana, saingy mbola manodina ny andiany tsirairay avy amin'ny atomika hatrany am-piandohana ka hatramin'ny farany. Ny batching mitohy dia miasa amin'ny dingana famokarana famantarana tsirairay, mamela ny fandrafetana batch hanova ny pass forward rehetra. Ny fahasamihafan'ny granularity no mahatonga ny batching mitohy hahatratra vokatra avo kokoa ho an'ny enta-mamokatra autoregressive manokana.

Mila fanovana maritrano modely ve ny fanangonana mitohy?

Tsy mila fanovana ny rafitra transformer mahazatra. Ny batching mitohy dia ampiharina tanteraka amin'ny soson'ny serivisy amin'ny alàlan'ny fanovana ny fandaharam-potoana inference, mpitantana ny fitadidiana ary ny kernel. Na izany aza, ny fanatsarana sasany - indrindra fa ny PagedAttention - dia mitaky kernel CUDA manokana izay manolo ny fampiharana ny fifantohana mahazatra, ka izany no mahatonga ny rafi-pamokarana tsy mitsaha-mitombo amin'ny famokarana toy ny vLLM sy TensorRT-LLM dia tsy fanoloana ho an'ny mpizara inference amin'ny tanjona ankapobeny.

Inona ny sakana amin'ny fitaovana mametra ny fahombiazan'ny batching mitohy?

GPU HBM bandwidth sy ny totalin'ny fahafahan'ny VRAM no teritery voalohany. Mitaky fitadidiana bebe kokoa ny cache KV lehibe kokoa, mametra ny fifanarahana ambony indrindra. Ny fifandraisan'ny bandwidth avo lenta (NVLink, Infiniband) dia lasa manan-danja amin'ny fametrahana GPU marobe izay tsy maintsy zaraina amin'ny fitaovana ny cache KV. Ao amin'ny tontolo voafetran'ny fitadidiana, ny fampitomboana mahery vaika ny sandan'ny cache KV (avy amin'ny FP16 ka hatramin'ny INT8 na INT4) dia mamerina ny fahafaha-manao amin'ny vidin'ny fahasimbana kely izay azo ekena amin'ny ankamaroan'ny fampiharana ara-barotra.


Na manangana endri-javatra mandeha amin'ny AI ianao na manomana asa sarotra amin'ny orinasanao manontolo, dia mitovy ny fitsipika fototra: manafoana ny fotoana tsy miasa, mamerina hatrany ny fahafaha-manao, ary manatanteraka asa bebe kokoa amin'ny loharano efa anananao. Mampihatra an'io fitsipika io i Mewayz manerana ny maody 207 mitambatra — manomboka amin'ny CRM sy e-varotra ka hatramin'ny analyse sy ny fiaraha-miasa amin'ny ekipa — manomboka amin'ny $19 isam-bolana.

Vonona ny hitantana ny orinasanao amin'ny fomba feno? Atombohy ny andranao maimaim-poana amin'ny app.mewayz.com ary jereo ny fomba fiasan'ny orinasa 138.000 marani-tsaina kokoa miaraka amin'i Mewayz.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime