Hacker News

Ka hoʻomau mau ʻana mai nā loina mua (2025)

Ka hoʻomau mau ʻana mai nā loina mua (2025) Hāʻawi kēia ʻikepili piha o ka hoʻomau i ka nānā kikoʻī o kāna mau ʻāpana kumu a me nā hopena ākea. Nā Wahi Koʻikoʻi Kūkū ka kūkākūkā ma: Nā mīkini kumu a me...

15 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Ka Hoʻohui Hoʻomau mai nā Kuʻuna Mua (2025)

ʻO ka hoʻopaʻa ʻana hoʻomau kahi ʻenehana hoʻonohonoho hoʻonohonoho ʻike e hoʻonui ai i ka hoʻokomo ʻana i ka lako ma o ka hoʻokomo ʻana i nā noi hou i loko o kahi pūʻulu hoʻoikaika ikaika i ka manawa e hoʻokuʻu ʻia ai kahi slot, e hoʻopau ana i nā pōʻaiapili helu palaualelo ma waena o nā hana. ʻO ka hoʻomaopopo ʻana mai nā loina mua e hōʻike ana i ke kumu i lilo ai ia i kumu hoʻolālā kumu no kēlā me kēia ʻōnaehana lawelawe AI kiʻekiʻe i kau ʻia ma ka pālākiō ma 2025.

He aha ke ʻano o ka hoʻopaʻa ʻana hoʻomau a no ke aha i hāʻule ʻole ai ka hui pū ʻana?

No ka mahalo ʻana i ka hoʻopaʻa ʻana mau, pono ʻoe e hoʻomaopopo mua i ka mea i pani ʻia. ʻO nā hui pūʻulu static kuʻuna he helu paʻa o nā noi i hui pū ʻia, e hana iā lākou ma ke ʻano hoʻokahi, a e ʻae wale i nā noi hou ma hope o ka pau ʻana o ka pūʻulu holoʻokoʻa. ʻO ka hemahema koʻikoʻi ʻo ia ka hana ʻana o nā ʻōlelo hoʻohālike nui i nā hōʻailona o ka lōʻihi o ka lōʻihi - hiki ke hoʻopau ʻia kekahi noi ma hope o 20 mau hōʻailona aʻo kekahi i loko o ka pūʻulu like e holo ana no 2,000. Noho ʻole kēlā me kēia GPU o ka puʻupuʻu e kali ana no ka hoʻopau ʻana i ke kaʻina lōʻihi ma mua o ka hoʻomaka ʻana o kekahi hana hou.

ʻO ka hoʻopaʻa ʻana mau, paionia ma ka pepa ʻāina ʻo 2022 "Orca: A Distributed Serving System for Transformer-Based Generative Models," e uhaki loa i kēia kaohi. Hoʻohana ia ma ka pae hoʻomaʻamaʻama mua o ka pae noi. Ma hope o ka hele ʻana o kēlā me kēia mua i ke kumu hoʻohālike, e nānā ka mea hoʻonohonoho i ka hōʻea ʻana o kekahi kaʻina i kona hōʻailona hope-o-sequence. Inā loaʻa, hoʻihoʻi koke ʻia kēlā slot a hāʻawi ʻia i kahi noi queued - ʻaʻohe kali, ʻaʻohe mea ʻino. Hiki ke hoʻololi i ka hui pūʻulu me kēlā me kēia ʻanuʻu decode, e mālama ana i ka hoʻohana ʻana i ka lako lako kokoke i ka palena kiʻekiʻe i nā manawa āpau.

Pehea ka hui ʻana o ka KV Cache me ka hoʻomau mau ʻana i ka pae ʻōnaehana?

ʻO ka waihona waiwai kī ʻo ia ka ʻōnaehana hoʻomanaʻo e hiki ai ke hoʻopaʻa ʻia ka manaʻo transformer. No kēlā me kēia hōʻailona i hana ʻia, helu ke kumu hoʻohālike i nā kī a me nā waiwai e pono e mālama ʻia i ʻole e hana hou nā hōʻailona hope i ka helu ʻana. I loko o kahi ʻōnaehana hoʻopaʻa paʻa, maʻalahi ka hoʻokaʻawale ʻana i ka waihona huna KV: mālama i ka hoʻomanaʻo e like me ka lōʻihi o ke kaʻina hana no kēlā me kēia noi i ka pūʻulu.

Hoʻopili ka hoʻomau ʻana i kēia me ka nani. No ka mea, komo nā noi a puka i waho o ka pūʻulu i nā manawa hiki ʻole ke ʻike ʻia, ʻaʻole hiki i ka ʻōnaehana ke hoʻokaʻawale mua i nā poloka hoʻomanaʻo pili paʻa. ʻO kēia ke kumu i lilo ai ka vLLM's PagedAttention - i hoʻokomo ʻia i ka makahiki 2023 - ʻaʻole hiki ke hoʻokaʻawale ʻia mai ka hoʻomau mau ʻana i nā hana hana. Hāʻawi ʻo PagedAttention i ke kumu hoʻohālike hoʻomanaʻo hoʻomanaʻo mai nā ʻōnaehana hana, e hoʻokaʻawale ana i ka cache KV i nā poloka pili ʻole o ka nui like. Hiki ke hoʻopuehu ʻia nā ʻaoʻao cache o kahi kaʻina ma waena o ka hoʻomanaʻo GPU e like me ka hoʻopuehu ʻana o nā ʻaoʻao hoʻomanaʻo virtual ma waena o ka RAM kino. ʻO ka hopena, kokoke i ka ʻeleʻele hoʻomanaʻo ʻana mai ka ʻāpana ʻāpana, e unuhi pololei ana i ka nui o ka pūʻulu kiʻekiʻe a me ka hoʻokomo ʻana i ʻoi aku ka nui me ka ʻole o ka hoʻokomo ʻana i nā lako lako.

He aha ke ʻano o nā ʻōnaehana hoʻonohonoho koʻikoʻi e hana ai i ka hana hoʻomau mau?

Ekolu mau hoʻoholo hoʻoholo hoʻonohonoho pili e hoʻomalu i kēlā me kēia ʻōnaehana hoʻomau mau:

  • Kuleana hoʻomaka: Ke kiʻekiʻe ke kaomi hoʻomanaʻo a hiki mai kahi noi manaʻo nui hou, pono ka mea hoʻonohonoho e hoʻoholo inā e hoʻoholo mua i kahi kaʻina hana haʻahaʻa e holo ana, e hoʻololi i kāna waihona KV i ka CPU RAM, a i ʻole e helu hou mai ka wā ʻōpala ma hope. Mālama ʻo Swap-based preemption i ka helu ʻana akā hoʻopau i ka bandwidth PCIe; Hoʻopau ka helu hou ʻana i nā pōʻai GPU akā mālama ka hoʻomanaʻo maʻemaʻe.
  • Ka hoʻomalu ʻana: Pono ka mea hoʻonohonoho hoʻonohonoho e wānana inā e kūpono ka waihona KV o kahi noi hou i ka hoʻomanaʻo i loaʻa i kona wā piha. ʻO ka hoʻohaʻahaʻa ʻana i nā kumu o waho o ka hoʻomanaʻo ʻana i waena o ke kaʻina; overestimating pōloli i ka queue unnecessarily. Hoʻohana nā ʻōnaehana o kēia wā i nā puʻunaue ka lōʻihi i hoʻopaʻa ʻia a me nā pale mālama no ke kaulike ʻana i kēia mau pilikia.
  • Chunked prefill: ʻO ka pae prefill — ka hoʻoponopono ʻana i ka hoʻokomo ʻana o ka mea hoʻohana — ua hoʻopaʻa ʻia a hiki ke hoʻokolo i ka GPU, e hoʻopaneʻe ana i nā ʻanuʻu decode no nā kaʻina holo mua. Hoʻokaʻawale ʻo Chunked prefill i nā ʻōkuhi lōʻihi i loko o nā puʻupuʻu nui paʻa i hoʻopili ʻia me nā hoʻololi decode, e hōʻemi ana i ka manawa-a-mua-token latency no nā mea hoʻohana like me ke kumu kūʻai o ka hoʻopiha piha mua ʻana.
  • Līliʻi manaʻo: Nā noi ʻāpana hoʻolālā ʻoihana e ka pae SLA. Kāhea ʻia ka API koʻikoʻi i ka Latency i nā hana puʻupuʻu ʻoi loa. Me ka ʻole o kēia papa, hiki i ka hana hōʻuluʻulu palapala lōʻihi ke hoʻohaʻahaʻa i ka ʻike mea hoʻohana pili no nā haneli o nā kau like.

"ʻAʻole hoʻomaikaʻi wale ka hoʻoulu ʻana o ka hoʻomau ʻana - hoʻoponopono hou ia i ke kumu hoʻokele waiwai o AI inference. Ma ka mālama ʻana i nā GPU i ka nui o ka hoʻonui ʻana ma mua o ka noi ʻana i ka granularity, loaʻa i nā mea hoʻohana 5-10x kiʻekiʻe o ka hoʻohana ʻana mai nā lako like like, ʻo ia ka lever nui loa i hiki ke hōʻemi i nā kumukūʻai lawelawe pākahi i ka makahiki 2025."

Pehea e ana nā hoʻolālā honua maoli i nā loaʻa o ka hana?

Nā hualoaʻa Benchmark mai Anyscale, a me nā kope kūʻokoʻa ma waena o nā ʻohana kumu hoʻohālike he nui i ka makahiki 2024, e hōʻike mau ana i ka hāʻawi ʻana i ka hoʻouna ʻana ma waena o 23 × a me 36 × kiʻekiʻe ma waena o ka hoʻohālikelike ʻana me ka naïve static batching ma lalo o nā hiʻohiʻona kalepa maoli. ʻIke ʻia ka loaʻa ʻana ke kiʻekiʻe ka ʻokoʻa o ka lōʻihi o ke noi - ʻo ia nā kūlana e hōʻike ana i ka hoʻomohala ʻana i nā haʻawina kamaʻilio AI kahi i loaʻa ai nā nīnau mea hoʻohana mai nā huaʻōlelo ʻekolu a hiki i ka hoʻouna ʻana i nā palapala he nui.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Hōʻike ʻo Latency i kahi moʻolelo kikoʻī. Hoʻomaikaʻi nui ka manawa-to-first-token no ka mea ʻaʻole kali ka ʻōnaehana i kahi pūʻulu static piha e ʻākoakoa ma mua o ka hoʻomaka ʻana i ka hoʻopiha. Paʻa mau ka latency inter-token ma lalo o ka haʻahaʻa haʻahaʻa akā hoʻohaʻahaʻa maikaʻi ʻia ma lalo o ka saturation ma mua o ka hāʻule ʻana, no ka mea ke hoʻomau nei ka mea hoʻonohonoho i ka holomua ma nā kaʻina hana āpau ʻoiai ke ulu hohonu ka pila. No nā ʻoihana e kūkulu ana i nā hiʻohiʻona AI i ka manawa maoli, ʻoi aku ka nui o kēia kaʻe hoʻohaʻahaʻa maikaʻi i ka ʻoihana ma mua o nā helu helu kiʻekiʻe.

Pehea e hiki ai i nā ʻoihana ke hoʻopili i nā loina hoʻopaʻa hoʻomau ma mua o ka manaʻo o AI?

ʻO ka ʻike kūkulu hale ma hope o ka hoʻopaʻa ʻana mau - e hoʻihoʻi i nā kumu waiwai ma ka granularity maikaʻi loa a hoʻihoʻi koke iā lākou ma mua o ke kali ʻana i kahi ʻāpana o ka hana e hoʻopau - he kumu maʻamau no kēlā me kēia ʻōnaehana e hoʻokele ana i nā haʻahaʻa hana like ʻole. Kūlike nā ʻōnaehana hana pāʻoihana: nā hana o nā lōʻihi like ʻole e hoʻokūkū ana no ka hiki ke hoʻoili like ʻia ma nā kahe hana CRM, ka automation marketing, nā pipeline analytics, a me nā hana e-commerce.

Hoʻohana ʻo Mewayz i kēia manaʻo noʻonoʻo ma kāna ʻoihana ʻoihana 207-module, e hoʻokele ikaika ana i nā haʻahaʻa hana ma waena o kahi kahua hoʻohui i hoʻohana ʻia e nā ʻoihana 138,000 a puni ka honua. Ma mua o ka koi ʻana i nā hui e kali i nā pōʻai hōʻike pūʻulu, nā laina ʻae ʻae ʻia, a i ʻole nā ​​​​mea hana i hoʻopaʻa ʻia, hana mau ʻo Mewayz i nā hanana ʻoihana - e hānai ana i nā huahana i hoʻopau koke ʻia i nā modula lalo e like me ke ʻano o ka mea hoʻonohonoho hoʻonohonoho hoʻomau e hānai i nā slot GPU i hoʻokuʻu ʻia i ka pila noi. ʻO ka hopena, ʻo ia ka hoʻomaikaʻi ʻana i ka throughput i nā hana ʻoihana maoli, ʻaʻole nā hōʻailona paena wale nō.

Nīnau pinepine

Ua like anei ka hoʻopaʻa ʻana me ka hoʻopaʻa ʻana ma TensorFlow Serving?

ʻAʻole. ʻO ka hui ikaika o TensorFlow Serving e hōʻuluʻulu i nā noi i loko o nā pūʻulu o ka nui like ʻole e pili ana i nā puka makani manawa a me ka hohonu o ka queue, akā e hana mau ana ia i kēlā me kēia pūʻulu atomically mai ka hoʻomaka a i ka pau ʻana. E holo ana ka hoʻopaʻa ʻana i kēlā me kēia kaʻina hana hōʻailona, ​​e ʻae ana i ka haku mele e hoʻololi i kēlā me kēia hele mua. ʻO ka ʻokoʻa granularity ke kumu e loaʻa ai i ka hoʻomau ʻana i ka hoʻonui ʻana i ka hana ʻoi aku ka kiʻekiʻe no nā hana hana autoregressive.

Pono anei ka hoʻololi ʻana i ka hoʻololi ʻana i ka hoʻolālā hoʻohālike?

ʻAʻole pono ka hoʻololi ʻana i nā hale hana transformer maʻamau. Hoʻokō piha ʻia ka hui ʻana ma ka papa lawelawe ma o ka hoʻololi ʻana i ka mea hoʻonohonoho inference, luna hoʻomanaʻo, a me ka kernel nānā. Eia nō naʻe, ʻo kekahi mau mea hoʻonui - ʻo ia hoʻi ʻo PagedAttention - koi i nā kernels CUDA maʻamau e hoʻololi i nā hoʻokō hoʻokō maʻamau, ʻo ia ke kumu ʻaʻole hoʻokuʻu ʻia nā frameworks batching hoʻomau e like me vLLM a me TensorRT-LLM no nā kikowaena inference kumu nui.

He aha nā mea paʻa paʻa e hoʻopaʻa i ka pono o ka hoʻopaʻa ʻana?

ʻO ka bandwidth GPU HBM a me ka nui o ka mana VRAM ka mea kaohi. ʻOi aku ka nui o ka hoʻomanaʻo ʻana o nā waihona KV nui, e kaupalena ana i ka concurrency kiʻekiʻe. He mea koʻikoʻi nā mea pili i ka bandwidth kiʻekiʻe (NVLink, Infiniband) no ka hoʻoili ʻana i ka nui-GPU kahi e hoʻohele ʻia ai ka cache KV ma nā ʻaoʻao. Ma nā kaiapuni i hoʻopaʻa ʻia i ka hoʻomanaʻo, hoʻihoʻi hou ʻia ka nui o nā waiwai huna KV (mai FP16 a i INT8 a i ʻole INT4) i ke kumu kūʻai o kahi hōʻemi pololei liʻiliʻi i ʻae ʻia no ka nui o nā noi kalepa.


Ke kūkulu nei ʻoe i nā hiʻohiʻona i hoʻohana ʻia i ka AI a i ʻole ka hoʻonohonoho ʻana i nā hana ʻoihana paʻakikī ma waena o kāu hui holoʻokoʻa, ua like ke kumu kumu: hoʻopau i ka manawa hana ʻole, hoʻihoʻi hou i ka hiki, a hana hou i nā hana me nā kumuwaiwai āu i loaʻa ai. Hoʻokomo ʻo Mewayz i kēlā kumumanaʻo i loko o 207 mau modules i hoʻohui ʻia - mai CRM a me e-commerce i ka analytics a me ka hui pū ʻana - e hoʻomaka ana ma $19 i kēlā me kēia mahina.

Makaukau e holo i kāu ʻoihana me ka piha piha? E hoʻomaka i kāu hoʻāʻo manuahi ma app.mewayz.com a e ʻike i ke ʻano o ka hana ʻana o nā ʻoihana 138,000 me Mewayz.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime