Hacker News

ከመጀመሪያዎቹ መርሆዎች ቀጣይነት ያለው ድፍን (2025)

ከመጀመሪያዎቹ መርሆዎች ቀጣይነት ያለው ድፍን (2025) ይህ ቀጣይነት ያለው አጠቃላይ ትንታኔ ዋና ክፍሎቹን እና ሰፋ ያሉ እንድምታዎችን በዝርዝር መመርመርን ይሰጣል። የትኩረት ቁልፍ ቦታዎች ውይይቱ የሚያተኩረው፡- ዋና ዘዴዎች እና...

1 min read Via huggingface.co

Mewayz Team

Editorial Team

Hacker News

ከመጀመሪያዎቹ መርሆዎች (2025) ቀጣይነት ያለው ምሽግ

ቀጣይ ባቺንግ አዲስ ጥያቄዎችን ወደ ገባሪ ሂደት ባች በማስገባት በስራዎች መካከል የስራ ፈት ስሌት ዑደቶችን በማስወገድ የሃርድዌር ፍሰትን ከፍ የሚያደርግ ተለዋዋጭ የውሳኔ መርሐግብር ቴክኒክ ነው። ከመጀመሪያዎቹ መርሆች መረዳት ለምንድነው በ2025 በየደረጃው ለተዘረጋው ከፍተኛ አፈጻጸም ላለው የኤአይ አገልግሎት ስርዓት መሰረታዊ አርክቴክቸር የሆነው።

ትክክለኛው ቀጣይነት ያለው ምሽግ ምንድን ነው እና ለምንድነው የማይንቀሳቀስ ባቺንግ አልተሳካም?

ቀጣይነት ያለው ድፍን ለማድነቅ በመጀመሪያ ምን እንደተተካ መረዳት አለቦት። ባሕላዊ የማይንቀሳቀስ ባቺንግ በአንድ ላይ ቋሚ የጥያቄዎች ብዛት ይመድባል፣ እንደ አንድ ክፍል ያስኬዳቸዋል እና አዲስ ጥያቄዎችን የሚቀበለው ሙሉው ስብስብ ካለቀ በኋላ ብቻ ነው። ወሳኙ ጉዳቱ ትላልቅ የቋንቋ ሞዴሎች ተለዋዋጭ ርዝመት ያላቸውን ምልክቶች ያመነጫሉ - አንዱ ጥያቄ ከ 20 ቶከኖች በኋላ ሊቋረጥ ይችላል ፣ ሌላኛው በተመሳሳይ ቡድን ውስጥ ለ 2,000 ነው። በክላስተር ውስጥ ያለ እያንዳንዱ ጂፒዩ ምንም አይነት አዲስ ስራ ከመጀመሩ በፊት ረጅሙ ቅደም ተከተል እስኪጠናቀቅ ድረስ ስራ ፈት ተቀምጧል።

በ 2022 የመሬት ምልክት ላይ በአቅኚነት የቀጠለው ቀጣይነት ያለው ምሽግ "ኦርካ፡ የተከፋፈለ የአገልግሎት ስርዓት ለትራንስፎርመር-ተኮር ጀነሬቲቭ ሞዴሎች" ይህንን ገደብ ሙሉ በሙሉ ይሰብራል። ከጥያቄ ደረጃ ይልቅ በየተደጋጋሚነት ደረጃ ይሰራል። እያንዳንዱ ነጠላ ወደፊት በአምሳያው ውስጥ ካለፉ በኋላ መርሐግብር አውጪው የትኛውም ተከታታይ ቅደም ተከተል የመጨረሻ ምልክት ላይ መድረሱን ያረጋግጣል። ካለ፣ ያ ማስገቢያ ወዲያውኑ ተመልሷል እና ለወረፋ ጥያቄ ይመደባል - መጠበቅ የለም፣ ምንም ብክነት የለም። የባች ቅንብር በእያንዳንዱ የዲኮድ እርምጃ በፈሳሽ ይቀየራል፣ ይህም የሃርድዌር አጠቃቀምን በማንኛውም ጊዜ ከቲዎሬቲካል ከፍተኛው ጋር ያስቀምጣል።

የ KV መሸጎጫ በስርዓት ደረጃ ከቀጣይ ምሽግ ጋር እንዴት ይገናኛል?

የቁልፍ እሴት መሸጎጫ ትራንስፎርመርን ትራክት የሚያደርግ የማህደረ ትውስታ መዋቅር ነው። ለእያንዳንዱ ማስመሰያ፣ ሞዴሉ መቆየት ያለባቸውን የትኩረት ቁልፎችን እና እሴቶችን ያሰላል ስለዚህ ተከታይ ቶከኖች ተደጋጋሚ ስሌትን እንዳይደግሙ። በስታቲክ ባቺንግ ሲስተም የ KV መሸጎጫ ድልድል ቀጥተኛ ነው፡ በቡድን ውስጥ ላለው እያንዳንዱ ጥያቄ ከከፍተኛው ተከታታይ ርዝመት ጋር የሚመጣጠን ማህደረ ትውስታን ያስቀምጡ።

ቀጣይነት ያለው ምሽግ ይህን በሚያምር ሁኔታ ያወሳስበዋል። ጥያቄዎች ባልተጠበቁ ጊዜዎች ውስጥ ስለሚገቡ እና ስለሚወጡት, ስርዓቱ ቋሚ ተያያዥ ማህደረ ትውስታዎችን አስቀድሞ መመደብ አይችልም. በትክክል ለዚህ ነው የvLLM PagedAttention — በ2023 የገባው — በምርት ማሰማራቶች ውስጥ ካለው ተከታታይ ስብስብ የማይለይ የሆነው። PagedAttention የቨርቹዋል ሜሞሪ ፔጅ ሞዴሉን ከኦፕሬቲንግ ሲስተሞች ወስዶ KV መሸጎጫውን በእኩል መጠን ወደሌሉ ተከታታይ ብሎኮች ይከፍላል። የቨርቹዋል ማህደረ ትውስታ ገፆች በአካላዊ ራም ላይ እንደሚበተኑ ሁሉ ተከታታይ የመሸጎጫ ገፆች በጂፒዩ ማህደረ ትውስታ ሊበተኑ ይችላሉ። ውጤቱ ወደ ዜሮ ቅርብ የሆነ የማህደረ ትውስታ ብክነት ከመከፋፈሉ የተገኘ ሲሆን ይህም በቀጥታ ወደ ከፍተኛ ባች መጠኖች እና ያለ ተጨማሪ የሃርድዌር ኢንቬስትመንት ከፍተኛ መጠን ይተረጎማል።

ቀጣይነት ያለው የመጥመቂያ ሥራ የሚሠሩት ዋና መርሐግብር አወጣጥ ዘዴዎች ምንድናቸው?

ሶስት እርስ በርስ የሚደጋገፉ የመርሃግብር ውሳኔዎች እያንዳንዱን ቀጣይነት ያለው የባቺንግ ስርዓት ይቆጣጠራሉ፡

  • ቅድመ-መመሪያ ፖሊሲ፡ የማህደረ ትውስታ ጫና ከፍተኛ ሲሆን እና አዲስ ከፍተኛ ቅድሚያ የሚሰጠው ጥያቄ ሲመጣ፣ መርሐግብር አውጪው ዝቅተኛ ቅድሚያ የሚሰጠውን ቅደም ተከተል ለማስቀደም፣ የ KV መሸጎጫውን ወደ ሲፒዩ RAM ለመቀየር ወይም እንደገና ከባዶ ለማስላት መወሰን አለበት። በመቀያየር ላይ የተመሰረተ ቅድመ ዝግጅት ስሌትን ይጠብቃል ነገር ግን PCIe ባንድዊድዝ ይበላል; ዳግም ማስላት የጂፒዩ ዑደቶችን ያባክናል ነገርግን የማስታወስ ችሎታውን ንፁህ ያደርገዋል።
  • የመግቢያ ቁጥጥር፡ የጊዜ መርሐግብር አውጪው የአዲስ ጥያቄ KV መሸጎጫ በሙሉ ትውልዱ ዕድሜው ካለው ማህደረ ትውስታ ጋር ይስማማ እንደሆነ መተንበይ አለበት። ማቃለል ከትዝታ ውጭ የሆኑ ብልሽቶች በቅደም ተከተል አጋማሽ ላይ; ከመጠን ያለፈ ግምት ወረፋውን ሳያስፈልግ ይራባል. ዘመናዊ ስርዓቶች እነዚህን ስጋቶች ለማመጣጠን ፕሮፋይል የተደረገባቸው የርዝመት ስርጭቶችን እና የተያዙ ቦታዎችን ይጠቀማሉ።
  • የተሰነጠቀ ቅድመ-ሙላ፡ የቅድመ-ሙላ ደረጃ — የተጠቃሚውን የግቤት መጠየቂያ ማስኬድ — በስሌት-ታሰረ ነው እና ጂፒዩውን በብቸኝነት ሊይዝ ይችላል፣ ይህም አስቀድሞ ለሚሰሩ ተከታታይ ቅደም ተከተሎች መፍታትን ያዘገያል። የተሰነጠቀ ቅድመ-ሙላ ረጅም መጠየቂያዎችን ወደ ቋሚ መጠን ቁርጥራጮች ይከፍላል ከድግግሞሾች ጋር የተጠላለፉ፣ ይህም ለተመሳሳይ ተጠቃሚዎች ከጊዜ ወደ መጀመሪያ-ቶከን መዘግየት በትንሹ ዝቅተኛ የጥሬ ቅድመ-ሙሌት መጠን ይቀንሳል።
  • ቅድሚያ ወረፋ፡ የድርጅት ክፍል ጥያቄዎችን በኤስኤል ደረጃ ያሰማራል። የላቲነት-ስሱ ኤፒአይ ጥሪዎች የምርጥ ጥረት ባች ስራዎችን ቀድመዋል። ያለዚህ ንብርብር፣ አንድ ረጅም የሰነድ ማጠቃለያ ተግባር በመቶዎች ለሚቆጠሩ ተከታታይ ክፍለ-ጊዜዎች በይነተገናኝ የተጠቃሚ ተሞክሮ ሊያሳንስ ይችላል።

"ቀጣይነት ያለው ባንግ የፍቱን ብቻ አያሻሽልም - የኤአይ ኢንፌክሽኑን ኢኮኖሚያዊ ሞዴል ይቀይራል:: ጂፒዩዎች በድግግሞሽ ጥራታቸው እንዲያዙ በማድረግ ግራናላሪቲ ውስጥ እንዲቆዩ በማድረግ ኦፕሬተሮች ከተመሳሳይ ሃርድዌር 5-10× ከፍተኛ ውጤታማ አጠቃቀምን አግኝተዋል፣ ይህም በአንድ ማስመሰያ አገልግሎት ወጪን ለመቀነስ ብቸኛው ትልቁ ማንሻ ነው።"

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →
202

የገሃዱ ዓለም ማሰማራቶች የአፈጻጸም ግኝቱን እንዴት ይለካሉ?

የቤንችማርክ ውጤቶች ከ Anyscale፣ በ2024 ውስጥ በበርካታ ሞዴል ቤተሰቦች ውስጥ ከተደረጉት የነፃ ቅጂዎች ጋር፣ በ23× እና 36× ከፍ ያለ የግብአት አቅርቦትን ያለማቋረጥ ያሳያሉ። ትርፉ በጣም የተገለጸው የጥያቄው ርዝመት ልዩነት ከፍተኛ ሲሆን - በትክክል የምርት የውይይት AI የሥራ ጫናዎችን የሚያሳዩ ሁኔታዎች የተጠቃሚ ጥያቄዎች ከሶስት ቃል ጥያቄዎች እስከ ባለብዙ ገጽ ሰነድ ማስረከብ ድረስ።

Latency የበለጠ እንቆቅልሽ የሆነ ታሪክ ይናገራል። ቅድመ-ሙላ ከመጀመሩ በፊት ስርዓቱ ሙሉ የማይንቀሳቀስ ባች እስኪሰበሰብ ድረስ ስለማይጠብቅ ከጊዜ ወደ መጀመሪያ-ቶከን በከፍተኛ ሁኔታ ይሻሻላል። የኢንተር-ቶከን መዘግየት በመጠኑ ሸክም የተረጋጋ ሆኖ ይቆያል ነገር ግን ከመበስበስ ይልቅ በሙሌት ውስጥ በሚያምር ሁኔታ ይቀንሳል፣ ምክንያቱም መርሐግብር አውጪው ወረፋው በጥልቅ ሲያድግ በሁሉም ንቁ ቅደም ተከተሎች ላይ ወደፊት መሻሻል ማድረጉን ይቀጥላል። የእውነተኛ ጊዜ AI ባህሪያትን ለሚገነቡ ንግዶች፣ ይህ ግርማ ሞገስ ያለው የውድቀት ከርቭ ብዙውን ጊዜ ከከፍተኛው የውጤት ቁጥሮች ይልቅ ለንግድ አስፈላጊ ነው።

ንግዶች ከ AI መረጋገጫ ባለፈ ቀጣይነት ያለው የመለያ መርሆችን እንዴት ሊተገበሩ ይችላሉ?

ከቀጣይ መደብ ጀርባ ያለው የስነ-ህንፃ ግንዛቤ - ሃብቶችን በተቻለ መጠን በተቻለ መጠን መልሰው ያግኙ እና እስኪጠናቀቅ ድረስ ሸካራማ የሆነ የስራ ክፍል ከመጠበቅ ይልቅ ወዲያውኑ ይመድቧቸው - ለየትኛውም ስርዓት የተለያዩ የስራ ጫናዎችን የሚያስተዳድር አጠቃላይ መርህ ነው። የቢዝነስ ኦፕሬቲንግ ሲስተሞች ተመሳሳይ ፈተና ያጋጥማቸዋል፡ በ CRM የስራ ፍሰቶች፣ የግብይት አውቶሜትድ፣ የትንታኔ ቧንቧዎች እና የኢ-ኮሜርስ ስራዎች ላይ የሚወዳደሩ በጣም የተለያየ ቆይታ ያላቸው ተግባራት።

Mewayz በመላው ዓለም በ138,000 ንግዶች በሚጠቀሙበት የተቀናጀ የመሳሪያ ስርዓት ላይ የስራ ጫናዎችን በተለዋዋጭ በማዞር ይህንን ፍልስፍና በ207-ሞዱል ቢዝነስ OSው ላይ ይተገበራል። ቡድኖችን ለቡድን ሪፖርት ማድረጊያ ዑደቶች፣ ተከታታይ የማረጋገጫ ወረፋዎች ወይም የጸጥታ መሳሪያ ቀረጻዎችን እንዲጠብቁ ከማስገደድ ይልቅ ሜዌይዝ የንግድ ክንውኖችን ያለማቋረጥ ያስኬዳል - የተጠናቀቁትን ውጤቶች ወዲያውኑ ወደ ታች ሞጁሎች መመገብ ቀጣይነት ያለው ባኪንግ መርሐግብር ነፃ የተለቀቁ የጂፒዩ ክፍተቶችን ወደ ጥያቄው ወረፋ እንዲመለስ ያደርጋል። ውጤቱ የሚለካው በትክክለኛ የንግድ ሥራዎች ላይ የፍጻሜ ማሻሻያ እንጂ መመዘኛዎች ብቻ አይደለም።

ብዙ ጊዜ የሚጠየቁ ጥያቄዎች

ቀጣይነት ያለው ምሽግ በTensorFlow Serving ላይ ካለው ተለዋዋጭ ባች ጋር ተመሳሳይ ነው?

አይ. የ TensorFlow ሰርቪንግ ተለዋዋጭ ባቲንግ በጊዜ መስኮቶች እና በሰልፍ ጥልቀት ላይ በመመስረት ጥያቄዎችን ወደ ተለዋዋጭ መጠን ይሰበስባል፣ ነገር ግን አሁንም እያንዳንዱን ስብስብ ከመጀመሪያው እስከ መጨረሻው በአቶሚክ ያስኬዳል። ቀጣይነት ያለው ድፍን በእያንዳንዱ የቶከን ትውልድ ደረጃ ላይ ይሰራል፣ ይህም የቡድን ቅንብር እያንዳንዱን ወደፊት ማለፊያ እንዲቀይር ያስችለዋል። የጥራጥሬነት ልዩነቱ ቀጣይነት ያለው ምሽግ በተለይ ለራስ-ሰር ማመንጨት የስራ ጫናዎች በከፍተኛ ደረጃ ከፍተኛ ውጤት ያስገኛል።

የማያቋርጥ መጋገር የሞዴል አርክቴክቸር ለውጦችን ይፈልጋል?

መደበኛ ትራንስፎርመር አርክቴክቸር ምንም ማሻሻያ አያስፈልጋቸውም። ቀጣይነት ያለው ድፍን ሙሉ በሙሉ በአገልግሎት ሰጪው ንብርብር ላይ በመግቢያ መርሐግብር፣ የማስታወሻ አቀናባሪ እና ትኩረትን ከርነል ላይ በሚደረጉ ለውጦች ይተገበራል። ነገር ግን፣ አንዳንድ ማመቻቸት -በተለይ PagedAttention - መደበኛ ትኩረት አተገባበርን የሚተኩ ብጁ CUDA ከርነሎች ያስፈልጋሉ፣ ለዚህም ነው የምርት ደረጃ ቀጣይነት ያለው የማጣቀሚያ ማዕቀፎች እንደ vLLM እና TensorRT-LLM ለአጠቃላይ ዓላማ አመላካች አገልጋዮች ተቆልቋይ መተኪያ ያልሆኑት።

ምን የሃርድዌር ገደቦች ቀጣይነት ያለው የመጠቅለያ ውጤታማነትን ይገድባሉ?

የጂፒዩ ኤችቢኤም ባንድዊድዝ እና አጠቃላይ የVRAM አቅም ቀዳሚ ገደቦች ናቸው። ትላልቅ የ KV መሸጎጫዎች ተጨማሪ ማህደረ ትውስታን ይፈልጋሉ, ከፍተኛውን ተመሳሳይነት ይገድባሉ. ባለከፍተኛ ባንድዊድዝ ማገናኛዎች (NVLink፣ Infiniband) የKV መሸጎጫ በመሳሪያዎች ላይ መሰራጨት ባለበት ለብዙ ጂፒዩ ማሰማራቶች ወሳኝ ይሆናሉ። በማህደረ ትውስታ-የተገደቡ አካባቢዎች፣ የKV መሸጎጫ እሴቶችን (ከFP16 እስከ INT8 ወይም INT4) ቁጣን በመለካት ለአብዛኛዎቹ የንግድ መተግበሪያዎች ተቀባይነት ባለው አነስተኛ ትክክለኛነት በሚቀንስ ዋጋ አቅምን ያድሳል።


በኤአይ የተጎለበተ ባህሪያትን እየገነባህ ወይም በመላው ድርጅትህ ውስጥ ውስብስብ የንግድ ሥራዎችን እያቀናበርክ፣ ዋናው መርህ አንድ ነው፡- የስራ ፈት ጊዜን አስወግድ፣ አቅምን ያለማቋረጥ ውሰድ፣ እና ባለህ ሃብት ተጨማሪ ስራን ማካሄድ። Mewayz ያንን መርህ በ207 የተቀናጁ ሞጁሎች - ከ CRM እና ኢ-ኮሜርስ እስከ ትንታኔ እና የቡድን ትብብር - በወር ከ$19 ጀምሮ በተግባር ላይ ይውላል።

ንግድህን በተሟላ መልኩ ለማስኬድ ዝግጁ ነህ?

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime