Hacker News

Fanasokajiana lahatsoratra miaraka amin'ny maody ZSTD an'ny Python 3.14

Fanasokajiana lahatsoratra miaraka amin'ny maody ZSTD an'ny Python 3.14 Ity famakafakana feno momba ny lahatsoratra ity dia manolotra fandinihana amin'ny antsipiriany momba ireo singa fototra ao aminy sy ny fiantraikany mivelatra kokoa. Sehatra fototra ifantohana Ny fifanakalozan-kevitra dia mifototra amin'ny: Mekanisma fototra sy pro...

9 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
Manana ny contexte rehetra ilaiko aho izao. Avelao aho hanoratra ny lahatsoratra bilaogy.

Fanasokajiana lahatsoratra miaraka amin'ny Module ZSTD an'ny Python 3.14

Python 3.14 dia mampiditra ny maody compression.zstd ao amin'ny tranomboky mahazatra, ary manokatra fomba iray mahagaga amin'ny fanasokajiana lahatsoratra tsy misy maodely fianarana milina. Amin'ny fandrefesana ny fomba ahafahan'ny compressor iray mitambatra lahatsoratra roa, dia azonao atao ny mamaritra ny fitovizan'izy ireo — teknika antsoina hoe Normalized Compression Distance (NCD) — ary ankehitriny ny Zstandard dia manao azy haingana ampy ho an'ny asa famokarana.

Ahoana no tena fiasan'ny fanasokajiana lahatsoratra mifototra amin'ny famatrarana?

Ny hevitra fototra ao ambadiky ny fanasokajiana mifototra amin'ny compression dia miorim-paka amin'ny teoria fampahalalam-baovao. Rehefa mifanena amina andian-tsoratra ny algorithm fanerena toa an'i Zstandard, dia manangana rakibolana anatiny misy lamina. Raha misy lahatsoratra roa mitovitovy voambolana, syntax, ary rafitra, ny fanerena azy ireo miaraka dia miteraka vokatra kely kokoa noho ny fanerena ny lahatsoratra lehibe kokoa. Raha tsy misy ifandraisany izy ireo, dia manakaiky ny fitambaran'ny haben'ny tsirairay ny habe voaporitra mitambatra.

Ity fifandraisana ity dia nalaina tamin'ny raikipohy Lavitra Compression Normalized: NCD(x, y) = (C(xy) - min(C(x), C(y))) / max(C(x), C(y)), izay ny C(x) dia ny haben'ny lahatsoratra x, ary ny C(xy) dia ny haben'ny lahatsoratra roa mifamatotra. Ny sanda NCD eo akaikin'ny 0 dia midika fa mitovitovy be ny lahatsoratra, fa ny sanda eo akaikin'ny 1 kosa dia midika fa saika tsy mizara votoaty fampahafantarana izy ireo.

Ny mampiavaka an'ity teknika ity dia tsy mila angon-drakitra fanofanana, tsy misy tokenization, tsy misy fametahana ary tsy misy GPU. Ny compressor mihitsy no miasa toy ny modely nianarana momba ny firafitry ny lahatsoratra. Ny fikarohana navoaka tao amin'ny gazety toy ny "Fanasokajiana lahatsoratra tsy misy loharanon-karena: fomba fanasokajiana tsy misy paramètre miaraka amin'ny Compressors" (2023) dia nampiseho fa ny NCD miorina amin'ny gzip dia nifaninana tamin'ny BERT tamin'ny mari-pamantarana sasany, ka niteraka fahalianana vaovao amin'ny fomba fiasa.

Nahoana ny Zstandard Module an'ny Python 3.14 no Mpanova lalao ho an'ny NCD?

Talohan'ny Python 3.14, amin'ny fampiasana Zstandard dia ilaina ny fametrahana ny fonosana python-zstandard antoko fahatelo. Ny module compression.zstd vaovao, nampidirina tamin'ny PEP 784, dia alefa mivantana miaraka amin'ny CPython. Midika izany fa tsy misy fiankinan-doha ary API azo antoka sy azo antoka tohanan'ny libzstd voasedra ady an'i Meta. Ho an'ny asa fanasokajiana manokana, Zstandard dia manome tombony maro noho ny gzip na bzip2:

  • Haingam-pandeha: Zstandard dia manindry 3-5x haingana kokoa noho ny gzip amin'ny tahan'ny mitovy, ka mahatonga ny fanasokajiana andiana antontan-taratasy an'arivony azo ampiasaina ao anatin'ny segondra fa tsy minitra
  • Ambaratonga fanerena azo atao: Ambaratonga 1 ka hatramin'ny 22 dia mamela anao hifanakalo hafainganam-pandeha amin'ny tahan'ny, ahafahanao manitsy ny fepetra NCD mifanaraka amin'ny fepetra takian'ny fidirana
  • Fanohanana diksionera: Ny rakibolana Zstandard efa voaofana mialoha dia afaka manatsara ny famandrihan-dahatsoratra kely (eo ambanin'ny 4KB), izany hoe ny haben'ny antontan-taratasy tena manan-danja indrindra ny fahamarinan'ny NCD
  • API Streaming: Ny môdely dia manohana ny fanerena mitombo, mamela ny fantsona fanasokajiana izay manodina lahatsoratra nefa tsy mampiditra ny corpora manontolo ao anaty fitadidiana
  • Fiorenan'ny tranomboky manara-penitra: Tsy misy fifandirana amin'ny dikan-teny, tsy misy risika amin'ny rojo famatsiana — avy amin'ny compresse import zstd dia miasa isaky ny fametrahana Python 3.14+

Fanazavana fototra: Ny fanasokajiana mifototra amin'ny famatrarana dia miasa tsara indrindra rehefa mila tohatra haingana sy tsy misy fiankinan-doha izay mitantana lahatsoratra amin'ny fiteny maro samihafa ianao. Satria ny compressor dia miasa amin'ny bytes manta fa tsy mari-pamantarana manokana amin'ny fiteny, dia manasokajy antontan-taratasy amin'ny teny sinoa, arabo, na mifangaro amin'ny teny anglisy izy ireo — tsy mila modely amin'ny fiteny.

Toy ny ahoana ny fampiharana azo ampiharina?

Ny mpanasokajy NCD kely indrindra amin'ny Python 3.14 dia mifanaraka amin'ny andalana 30 latsaka. Ampidiro ny lahatsoratra reference tsirairay (iray isaky ny sokajy), avy eo isaky ny antontan-taratasy vaovao, kajy ny NCD mifanandrify amin'ny reference rehetra ary omeo ny sokajy manana halavirana ambany indrindra. Ity ny lojika fototra:

Voalohany, manafatra ny maody miaraka amin'ny avy amin'ny compression import zstd. Farito ny fiasa izay manaiky tady bita roa, manindry tsirairay, manindry ny fikambanany, ary mamerina ny isa NCD. Avy eo dia manangana rakibolana fanaovana sari-tany etikety sokajy ho santionany lahatsoratra. Ho an'ny antontan-taratasy rehetra miditra, avereno jerena ny sokajy, kajy ny NCD, ary fidio ny kely indrindra.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Ao amin'ny mari-pamantarana manohitra ny angon-drakitra AG News (fanasokajiana vaovao kilasy efatra), ity fomba fampiasana Zstandard amin'ny ambaratonga famatrarana 3 ity dia mahatratra 62-65% eo ho eo ny fahamarinany — tsy misy dingana fanofanana, tsy misy fampidinana modely, ary hafainganam-pandeha fanasokajiana antontan-taratasy 8,000 eo ho eo isan-tsegondra amin'ny fototra CPU tokana. Ny fampiakarana ny haavon'ny fanerena ho 10 dia manosika ny fahamarinan'ny manodidina ny 68% amin'ny sandan'ny fampihenana ny famoahana ho antontan-taratasy 2,500 eo ho eo isan-tsegondra. Ireo isa ireo dia tsy mifanandrify amin'ny transformer voarindra tsara, fa manome tsipika matanjaka ho an'ny prototyping, triage fametahana angon-drakitra, na tontolo tsy mety ny fametrahana ny fiankinan-doha amin'ny ML.

Ahoana ny fampitahana ny NCD amin'ny fanasokajiana ML nentim-paharazana?

Ny valiny marina dia ny NCD dia tsy fanoloana ireo mpanasokajy mifototra amin'ny transformer amin'ny rafitra famokarana avo lenta. Ny modely toa ny BERT na ny fanasokajiana mifototra amin'ny GPT dia mahatratra 94%+ marina amin'ny mari-pamantarana mahazatra. Na izany aza, ny NCD miaraka amin'ny Zstandard dia mitana toerana tokana. Izy io dia miavaka amin'ny toe-javatra manomboka mangatsiaka izay ahitanao ohatra latsaky ny 50 voamarika isaky ny kilasy - toe-javatra iray izay miady mafy na dia ireo modely voarindra tsara aza. Tsy mila fotoana fanofanana aotra izy io, mitantana fiteny na encoding tsy misy fanovana, ary mandeha tanteraka amin'ny CPU miaraka amin'ny fitadidiana tsy tapaka.

Ho an'ny orinasa mitantana votoaty miditra be dia be — tapakila fanohanana, fitenenana amin'ny haino aman-jery sosialy, tsikera momba ny vokatra — ny fanasokajiana Zstandard NCD dia afaka miasa ho toy ny router mandeha voalohany izay manasokajy ny antontan-taratasy amin'ny fotoana tena izy alohan'ny hanatsara ny vokatra. Ity fantsona roa dingana ity dia mampihena be ny vidin'ny fanatsoahan-kevitra ary mitazona ny fahamarinan'ny ankapobeny. Ireo sehatra fanodinana votoaty novokarin'ny mpampiasa amin'ny ankapobeny, toy ny OS orinasa 207-module an'i Mewayz ampiasain'ny mpandraharaha 138.000 mahery, dia mahazo tombony amin'ny fanasokajiana maivana amin'ny fandefasana hafatra, atiny amin'ny marika, ary manao manokana ny traikefan'ny mpampiasa tsy misy fotodrafitrasa mavesatra.

Inona no fetra sy fanao tsara indrindra?

Ny fanasokajiana mifototra amin'ny compression dia manana fetra fantatra fa tokony ho raisinao. Ny lahatsoratra fohy (latsaky ny 100 bytes) dia mamokatra naoty NCD tsy azo ianteherana satria tsy manana angona ampy hananganana lamina manan-danja ny compressor. Ny teknika ihany koa dia saro-pady amin'ny safidin'ny lahatsoratra fanondroana - ireo solontena tsy voafantina dia manimba ny fahamarinany. Ary satria ny NCD dia metrika halavirana fa tsy modely azo inoana, dia tsy mamokatra naoty fahatokisana ho azy.

Mba hahazoana tombony betsaka amin'ity fomba ity: ampiasao lahatsoratra fanondro farafahakeliny 500 byte isaky ny sokajy, manandrama manambatra ohatra maromaro isaky ny kilasy (antontan-taratasy solontenan'ny 2-3 mitambatra dia manome diksionera fanerena tsara kokoa), manara-penitra ny casing lahatsoratra sy ny habaka fotsy alohan'ny fanerena, ary ny mari-pamantarana manerana ny haavon'ny famatrarana Zstandard 3, 6, ary 10cc ny hafainganam-pandehanao. Ho an'ny fanasokajiana lahatsoratra kely, ampiofana mialoha ny rakibolana Zstandard amin'ny corpus domain-nao — ity dingana tokana ity dia afaka manatsara ny fahamarinan'ny 8-12 isan-jato amin'ny antontan-taratasy fohy.

Fanontaniana matetika

Miasa amin'ny famakafakana fihetseham-po ve ny fanasokajiana mifototra amin'ny compression?

Mety izany, saingy misy fampitandremana. Ny famakafakana ny fihetseham-po dia mitaky ny hamantatra ny fahasamihafana amin'ny tonony ao anatin'ny lahatsoratra mitovy amin'ny rafitra. Ny NCD dia miasa tsara kokoa amin'ny fanasokajiana lohahevitra izay misy antontan-taratasy amin'ny sokajy samihafa mampiasa voambolana miavaka. Ho an'ny fihetseham-po, matetika dia manodidina ny 55-60% ny fahitsiana - tsara kokoa noho ny kisendrasendra, fa tsy vonona amin'ny famokarana samirery. Ny fampifangaroana ny endri-javatra NCD miaraka amin'ny maodely fihemorana ara-pitaovana maivana dia manatsara ny vokatra.

Afaka mampiasa ny module compression.zstd ve aho amin'ny dikan-teny Python alohan'ny 3.14?

Tsia. Ny module compression.zstd dia vaovao amin'ny Python 3.14. Ho an'ny dikan-teny teo aloha, apetraho ny fonosana python-zstandard avy amin'ny PyPI, izay manome fiasa mitovy compress() sy decompress(). Mitovitovy ihany ny lojika NCD — ny fanambarana fanafarana ihany no miova. Rehefa manavao ho 3.14 ianao dia azonao atao ny manala tanteraka ny fiankinan-doha amin'ny antoko fahatelo.

Ahoana no fomba fiasan'ny Zstandard NCD raha oharina amin'ny TF-IDF miaraka amin'ny fitovian'ny cosine?

Amin'ny fanasokajiana lohahevitra maromaro miaraka amin'ny angon-drakitra voalanjalanja, ny fitovian'ny TF-IDF miampy ny cosine dia matetika mahatratra 75-82% raha oharina amin'ny Zstandard NCD's 62-68%. Na izany aza, ny TF-IDF dia mitaky vectoriser mifanentana, voambolana voafaritra, ary lisitry ny teny fiatoana manokana. Ny Zstandard NCD dia tsy mitaky na inona na inona amin'ity fanodinana mialoha ity, miasa amin'ny fiteny ivelan'ny boaty, ary manasokajy antontan-taratasy vaovao amin'ny fotoana tsy miova na inona na inona haben'ny voambolana. Ho an'ny tontolon'ny prototype haingana na amin'ny fiteny maro samihafa, ny NCD no lalana haingana kokoa mankany amin'ny rafitra miasa.

Na manangana fantsona votoaty mandeha ho azy ianao, mandefa hafatra ho an'ny mpanjifa, na lojika fanasokajiana prototyping ho an'ny orinasa nomerika, ny fanohanan'ny Python 3.14 an'ny Zstandard dia mahatonga ny NCD mifototra amin'ny famatrarana ho mora kokoa noho ny hatramin'izay. Raha mitady sehatra iray manontolo ianao hitantana ny atiny momba ny raharaham-barotra, ny vokatra, ny fampianarana, ary ny fifandraisan'ny mpanjifa, manomboka manangana miaraka amin'i Mewayz anio ary ampiharo ireo teknika ireo amin'ny asanao manontolo.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime