Hacker News

Бесперапыннае дазаванне ад першых прынцыпаў (2025)

Бесперапыннае дазаванне ад першых прынцыпаў (2025) Гэты ўсёабдымны аналіз бесперапыннасці прапануе дэталёвае вывучэнне яго асноўных кампанентаў і больш шырокія наступствы. Асноўныя вобласці ўвагі У цэнтры дыскусіі: Асноўныя механізмы і...

1 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

Пастаяннае пакетаванне ад First Principles (2025)

Пастаяннае пакетаванне - гэта метад дынамічнага планавання вываду, які павялічвае апаратную прапускную здольнасць шляхам устаўкі новых запытаў у актыўны пакет апрацоўкі ў момант вызвалення слота, ухіляючы бяздзейныя цыклы вылічэнняў паміж заданнямі. Разуменне гэтага з першых прынцыпаў паказвае, чаму гэта стала асноватворнай архітэктурай для кожнай высокапрадукцыйнай абслугоўваючай сістэмы штучнага інтэлекту, разгорнутай у маштабе ў 2025 годзе.

Што такое бесперапыннае пакетаванне і чаму статычнае пакетаванне не атрымалася?

Каб ацаніць бесперапыннае дазаванне, вы павінны спачатку зразумець, што яно замяніла. Традыцыйнае статычнае пакетаванне групуе разам фіксаваную колькасць запытаў, апрацоўвае іх як адно цэлае і прымае новыя запыты толькі пасля таго, як увесь пакет скончыцца. Крытычны недахоп заключаецца ў тым, што вялікія моўныя мадэлі генеруюць токены зменнай даўжыні - адзін запыт можа завяршыцца пасля 20 лексем, а іншы ў той жа партыі працуе для 2000. Кожны графічны працэсар у кластары прастойвае ў чаканні завяршэння самай доўгай паслядоўнасці, перш чым можна будзе пачаць любую новую працу.

Пастаяннае дазаванне, упершыню створанае ў знакавай працы 2022 года "Orca: размеркаваная сістэма абслугоўвання для генератыўных мадэляў на аснове трансфарматараў", цалкам парушае гэтае абмежаванне. Ён працуе на ўзроўні ітэрацыі, а не на ўзроўні запыту. Пасля кожнага праходжання наперад праз мадэль планавальнік правярае, ці дасягнула нейкая паслядоўнасць маркера канца паслядоўнасці. Калі так, гэты слот неадкладна аднаўляецца і прызначаецца запыту ў чарзе — без чакання і марнавання. Пакетны склад плаўна змяняецца з кожным крокам дэкадавання, падтрымліваючы выкарыстанне апаратнага забеспячэння заўсёды блізкім да тэарэтычнага максімуму.

Як кэш KV узаемадзейнічае з бесперапынным пакетаваннем на сістэмным узроўні?

Кэш "ключ-значэнне" - гэта структура памяці, якая робіць выснову трансфарматара зручным. Для кожнага апрацаванага токена мадэль вылічвае ключы ўвагі і значэнні, якія неабходна захаваць, каб наступныя токены не паўтаралі лішнія вылічэнні. У статычнай сістэме пакетавання размеркаванне кэша KV простае: рэзервовая памяць прапарцыянальна максімальнай даўжыні паслядоўнасці для кожнага запыту ў пакете.

Пастаяннае пакетаванне элегантна ўскладняе гэта. Паколькі запыты ўваходзяць і выходзяць з пакета ў непрадказальны час, сістэма не можа загадзя вылучыць фіксаваныя сумежныя блокі памяці. Менавіта таму PagedAttention ад vLLM, прадстаўлены ў 2023 годзе, стаў неаддзельным ад бесперапыннага пакетавання пры разгортванні вытворчасці. PagedAttention запазычвае мадэль падпампоўкі віртуальнай памяці ў аперацыйных сістэм, падзяляючы кэш KV на несумежныя блокі аднолькавага памеру. Старонкі кэша паслядоўнасці могуць быць раскіданы па памяці GPU гэтак жа, як старонкі віртуальнай памяці раскіданы па фізічнай аператыўнай памяці. Вынікам з'яўляецца амаль нулявая страта памяці ў выніку фрагментацыі, што непасрэдна прыводзіць да павелічэння памераў пакетаў і большай прапускной здольнасці без дадатковых укладанняў у абсталяванне.

Якія асноўныя механізмы планавання забяспечваюць бесперапынную пакетную працу?

Кожная сістэма бесперапыннага пакетавання кіруецца тры ўзаемазалежнымі рашэннямі па раскладзе:

  • Палітыка выключэння: Калі нагрузка на памяць высокая і паступае новы высокапрыярытэтны запыт, планіроўшчык павінен вырашыць, ці варта выняць запушчаную паслядоўнасць з нізкім прыярытэтам, замяніць кэш KV на аператыўную памяць працэсара або перавылічыць яго з нуля пазней. Апярэджанне на аснове свопу захоўвае вылічэнні, але спажывае прапускную здольнасць PCIe; паўторнае вылічэнне марнуе цыклы GPU, але захоўвае памяць у чысціні.
  • Кантроль допуску: планавальнік павінен прадбачыць, ці змесціцца кэш KV новага запыту ў даступнай памяці на працягу поўнага жыцця пакалення. Недаацэнка выклікае збоі з-за недахопу памяці ў сярэдзіне паслядоўнасці; завышэнне ацэнкі залішне галадае ў чарзе. Сучасныя сістэмы выкарыстоўваюць прафіляванае размеркаванне даўжыні і буферы рэзервавання, каб збалансаваць гэтыя рызыкі.
  • Чанковае папярэдняе запаўненне: Фаза папярэдняга запаўнення — апрацоўка запыту карыстальніка на ўвод — звязана з вылічэннямі і можа манапалізаваць графічны працэсар, затрымліваючы крокі дэкадавання для ўжо запушчаных паслядоўнасцей. Разбітае папярэдняе запаўненне разбівае доўгія падказкі на кавалкі фіксаванага памеру, перамежаваныя ітэрацыямі дэкадавання, памяншаючы затрымку часу да першага токена для адначасовых карыстальнікаў за кошт нязначна меншай прапускной здольнасці неапрацаванага папярэдняга запаўнення.
  • Прыярытэтная чарга: карпаратыўныя разгортванні сегментуюць запыты па ўзроўні SLA. Выклікі API, адчувальныя да затрымкі, выцясняюць пакетныя заданні з найлепшымі намаганнямі. Без гэтага ўзроўню адна доўгая задача абагульнення дакумента можа пагоршыць інтэрактыўны карыстацкі досвед для сотняў адначасовых сеансаў.
<цытата>

"Пастаяннае пакетаванне не проста паляпшае прапускную здольнасць — яно рэструктурызуе эканамічную мадэль высновы штучнага інтэлекту. Захоўваючы GPU на ітэрацыі, а не на дэталізацыі запытаў, аператары дасягаюць у 5-10 разоў больш эфектыўнага выкарыстання аднолькавага абсталявання, што з'яўляецца найбуйнейшым даступным рычагом зніжэння выдаткаў на абслугоўванне токена ў 2025 г."

Як разгортванне ў рэальным свеце вымярае прырост прадукцыйнасці?

Вынікі тэстаў ад Anyscale разам з незалежнымі рэпрадукцыямі ў некалькіх сямействах мадэляў у 2024 годзе пастаянна паказваюць, што бесперапыннае пакетаванне забяспечвае ў 23-36 разоў большую прапускную здольнасць у параўнанні з наіўным статычным пакетаваннем пры рэалістычных схемах трафіку. Выйгрыш найбольш прыкметны, калі дысперсія даўжыні запыту высокая - менавіта тыя ўмовы, якія характарызуюць працоўныя нагрузкі штучнага інтэлекту пры размове, калі запыты карыстальнікаў вар'іруюцца ад падказак з трох слоў да адпраўкі шматстаронкавых дакументаў.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Затрымка распавядае больш тонкую гісторыю. Час да першага токена значна паляпшаецца, таму што сістэма больш не чакае зборкі поўнай статычнай партыі перад пачаткам папярэдняга запаўнення. Затрымка паміж маркерамі застаецца стабільнай пры ўмеранай нагрузцы, але вытанчана пагаршаецца пры насычэнні, а не згортваецца, таму што планавальнік працягвае прасоўвацца наперад па ўсіх актыўных паслядоўнасцях, нават калі чарга становіцца глыбокай. Для прадпрыемстваў, якія ствараюць функцыі штучнага інтэлекту ў рэжыме рэальнага часу, гэтая вытанчаная крывая дэградацыі часта з'яўляецца камерцыйна больш важнай, чым паказчыкі максімальнай прапускной здольнасці.

Як прадпрыемствы могуць прымяняць прынцыпы бесперапыннага пакетавання па-за высновай AI?

Архітэктурнае разуменне бесперапыннага пакетавання — вярнуць рэсурсы з максімальна магчымай дэталізацыяй і неадкладна пераназначыць іх, а не чакаць, пакуль скончыцца грубая адзінка працы — гэта агульны прынцып для любой сістэмы, якая кіруе гетэрагеннымі нагрузкамі. Бізнес-аперацыйныя сістэмы сутыкаюцца з той жа праблемай: задачы вельмі рознай працягласці, якія змагаюцца за агульную магутнасць апрацоўкі ў працоўных працэсах CRM, аўтаматызацыі маркетынгу, аналітычных каналах і аперацыях электроннай камерцыі.

Mewayz прымяняе гэту філасофію ў сваёй 207-модульнай бізнес-АС, дынамічна накіроўваючы працоўныя нагрузкі праз інтэграваную платформу, якую выкарыстоўваюць 138 000 кампаній па ўсім свеце. Замест таго, каб прымушаць каманды чакаць цыклаў пакетнай справаздачнасці, паслядоўных чэргаў на зацвярджэнне або асобнай перадачы інструментаў, Mewayz бесперапынна апрацоўвае бізнес-падзеі — неадкладна перадае завершаныя вынікі ў наступныя модулі, як планіроўшчык бесперапыннай пакетнай працы вяртае вызваленыя слоты GPU назад у чаргу запытаў. Вынікам з'яўляецца вымяральнае павышэнне прапускной здольнасці ў рэальных бізнес-аперацыях, а не толькі ў кантрольных паказчыках.

Часта задаюць пытанні

Ці тое самае бесперапыннае пакетаванне, што і дынамічнае пакетаванне ў TensorFlow Serving?

Не. Дынамічнае пакетаванне TensorFlow Serving збірае запыты ў пакеты зменнага памеру ў залежнасці ад часовых вокнаў і глыбіні чаргі, але ён па-ранейшаму апрацоўвае кожную партыю атамарна ад пачатку да канца. Бесперапыннае пакетаванне працуе на асобным этапе генерацыі токенаў, што дазваляе змяняць склад пакета пры кожным праходзе наперад. Розніца ў дэталізацыі з'яўляецца прычынай таго, чаму бесперапыннае пакетаванне дасягае значна больш высокай прапускной здольнасці менавіта для працоўных нагрузак генерацыі аўтарэгрэсіі.

Ці патрабуе пастаяннае пакетаванне змены архітэктуры мадэлі?

Стандартныя архітэктуры трансфарматараў не патрабуюць мадыфікацыі. Бесперапыннае пакетаванне рэалізавана цалкам на ўзроўні абслугоўвання праз змены ў планавальніку вываду, дыспетчару памяці і ядры ўвагі. Тым не менш, для некаторых аптымізацый — у прыватнасці PagedAttention — патрабуюцца карыстальніцкія ядра CUDA, якія замяняюць стандартныя рэалізацыі ўвагі, таму вытворчага ўзроўню бесперапыннага пакетавання фрэймворкі, такія як vLLM і TensorRT-LLM, не замяняюць серверы вываду агульнага прызначэння.

Якія апаратныя абмежаванні абмяжоўваюць эфектыўнасць бесперапыннага пакетавання?

Прапускная здольнасць GPU HBM і агульная ёмістасць VRAM з'яўляюцца асноўнымі абмежаваннямі. Большыя кэшы KV патрабуюць больш памяці, што абмяжоўвае максімальны паралелізм. Міжзлучэнні з высокай прапускной здольнасцю (NVLink, Infiniband) становяцца крытычна важнымі для разгортвання некалькіх графічных працэсараў, дзе кэш KV павінен быць размеркаваны паміж прыладамі. У асяроддзі з абмежаванай памяццю агрэсіўнае квантаванне значэнняў кэша KV (ад FP16 да INT8 або INT4) аднаўляе ёмістасць за кошт невялікага зніжэння дакладнасці, што прымальна для большасці камерцыйных прыкладанняў.


Незалежна ад таго, ствараеце вы функцыі на аснове штучнага інтэлекту або арганізоўваеце складаныя бізнес-аперацыі ва ўсёй арганізацыі, асноўны прынцып ідэнтычны: пазбаўцеся ад часу прастою, бесперапынна аднаўляйце магутнасці і апрацоўвайце больш працы з рэсурсамі, якія ў вас ужо ёсць. Mewayz прымяняе гэты прынцып на практыцы ў 207 інтэграваных модулях — ад CRM і электроннай камерцыі да аналітыкі і каманднага супрацоўніцтва — пачынаючы з 19 долараў у месяц.

Гатовыя працаваць з поўнай прадукцыйнасцю? Пачніце бясплатную пробную версію на app.mewayz.com і паглядзіце, як 138 000 кампаній працуюць разумней з Mewayz.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime