Hacker News

Python 3.14 ZSTD модуле белән текст классификациясе

Python 3.14 ZSTD модуле белән текст классификациясе Текстка бу комплекслы анализ аның төп компонентларын һәм киңрәк нәтиҗәләрен җентекләп тикшерүне тәкъдим итә. Фокусның төп өлкәләре Фикер алышу үзәкләре: Төп механизмнар һәм про ...

1 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
Хәзер миңа кирәк булган барлык контекст бар. Миңа блог постын язарга рөхсәт итегез.

Python 3.14'ның ZSTD модуле белән текст классификациясе

Python 3.14 стандарт китапханәгә compression.zstd модулын кертә, һәм ул машина өйрәнү модельләре булмаган текст классификациясенә гаҗәеп көчле карашны ача. Компрессорның ике текстны ни дәрәҗәдә кысып булачагын үлчәп, сез аларның охшашлыгын билгели аласыз - Нормальләштерелгән кысу дистанциясе (NCD) - һәм хәзер Зстандард аны җитештерү авырлыгы өчен җитәрлек итә.

Кысылуга нигезләнгән текст классификациясе ничек эшли?

Кысылуга нигезләнгән классификациянең төп идеясы мәгълүмат теориясенә нигезләнгән. Зстандард кебек кысу алгоритмы текст блокына очраганда, ул үрнәкләрнең эчке сүзлеген төзи. Әгәр дә ике текст охшаш лексика, синтаксис һәм структураны уртаклашса, аларны бергә кысу зуррак текстны кысудан бераз зуррак нәтиҗә бирә. Әгәр алар бәйләнешсез булса, кушылган кысылган зурлык ике зурлык суммасына якынлаша.

Бу бәйләнеш Нормальләштерелгән кысу дистанциясе формуласы белән кулга алына: NCD (x, y) = (C (xy) - мин (C (x), C (y))) / макс (C (x), C (y)) , монда C (x) - текстның кысылган зурлыгы, һәм C (xy) - ике текстның кысылган зурлыгы. 0 тирәсе NCD кыйммәте текстларның бик охшаш булуын аңлата, ә 1 гә якын булган кыйммәт алар мәгълүмат эчтәлеге юк диярлек.

Бу техниканы искиткеч итә торган нәрсә - ул бернинди укыту мәгълүматлары, токенизация, кыстыргычлар һәм GPU таләп итми. Компрессор үзе текст структурасының өйрәнелгән моделе булып эшли. "Түбән ресурслы текст классификациясе: компрессорлар белән параметрсыз классификация методы" (2023) кебек кәгазьләрдә бастырылган тикшеренүләр күрсәткәнчә, gzip нигезендәге NCD билгеле бер күрсәткечләр буенча BERT белән көндәш булган, бу алымда кызыксыну уяткан.

Ни өчен Python 3.14-ның Zstandard модуле NCD өчен уен-үзгәртүче?

Python 3.14 алдыннан, Zstandard кулланып, өченче як python-zstandard пакетын урнаштыру таләп ителә. PEP 784 аша кертелгән яңа compression.zstd модуле туры CPython белән җибәрелә. Бу нульгә бәйләнеш өстенлеге һәм Meta-ның сугыш сынавы libzstd ярдәмендә гарантияләнгән, тотрыклы API дигәнне аңлата. Аерым классификация биремнәре өчен Zstandard gzip яки bzip2:

га караганда берничә өстенлек тәкъдим итә
  • Тизлек: Зстандард чагыштырма ставкаларда gzipка караганда 3-5х тизрәк кысыла, меңләгән документлардан партия классификациясен минутлар түгел, секундлар эчендә тормышка ашыра
    • сүзлек ярдәме: Алдан әзерләнгән Zstandard сүзлекләре кечкенә текстларның кысылуын кискен яхшырта ала (4КБ астында), бу документның зурлыгы диапазоны, NCD төгәллеге иң мөһиме булган
    • Агым API: Модуль арта торган кысылуны хуплый, бөтен корпораны хәтергә йөкләмичә текстларны эшкәртә торган классификация торбаларын рөхсәт итә
    • Стандарт китапханә тотрыклылыгы: Вариант конфликтлары юк, тәэмин итү чылбыры куркынычы юк - zstd кысу импортыннан һәр Python 3.14+ урнаштыруда эшли

    Төп төшенчәләр: Компрессиягә нигезләнгән классификация сезгә күп телле текстны эшкәртүче тиз, бәйләнешсез база кирәк булганда иң яхшы эшли. Компрессорлар телгә хас билгеләргә түгел, ә чимал байталарда эшләгәнгә, алар Кытай, Гарәп яки катнаш тел документларын инглизчә эффектив классификациялиләр - тел моделе кирәк түгел.

    Практик тормышка ашыру нәрсәгә охшаган?

    Python 3.14 минималь NCD классификаторы 30 юл астына туры килә. Сез һәрбер белешмә текстны кодлыйсыз (бер категориягә бер), аннары һәр яңа документ өчен, NCD-ны һәр сылтамага исәпләгез һәм категорияне иң түбән дистанция белән билгеләгез. Менә төп логика:

    Беренчедән, zstd кысу импортыннан белән модульне импортлагыз. Ике байтак сызыкны кабул итүче, һәрберсен индивидуаль кысучы, аларның конкатенациясен кысучы һәм NCD баллын кайтаручы функцияне билгеләгез. Аннары үрнәк текст текстларына сүзлек картасы категориясе билгеләрен төзегез. Eachәрбер килүче документ өчен категорияләр буенча кабатлагыз, NCD-ны исәпләгез һәм минимумны сайлагыз.

    💡 DID YOU KNOW?

    Mewayz replaces 8+ business tools in one platform

    CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

    Start Free →

    AG News мәгълүматлар базасына (дүрт класслы яңалыклар классификациясе), Zstandard'ны кысу дәрәҗәсендә куллану якынча 62-65% төгәллеккә ирешә - бер адым да, модель йөкләү дә юк, һәм бер үзәк эшкәрткеч җайланманың секундына якынча 8000 документның классификация тизлеге. Кысу дәрәҗәсен 10га күтәрү төгәллекне 68% ка этәрә, секундына якынча 2500 документка кадәр. Бу саннар яхшы көйләнгән трансформаторларга туры килми, ләкин алар прототиплаштыру, мәгълүмат маркировкасы триаглары, яки ML бәйләнешләрен урнаштыру мөмкин булмаган мохит өчен ныклы нигез бирә.

    NCD традицион ML классификациясе белән ничек чагыштырыла?

    Намуслы җавап - NCD югары җитештерү системаларында трансформатор нигезендәге классификаторларны алыштыру түгел. BERT яки GPT нигезендәге классификаторлар кебек модельләр стандарт күрсәткечләрдә 94% + төгәллеккә ирешәләр. Ләкин, Zstandard белән NCD уникаль урынны били. Бу салкын старт сценарийларында өстенлек бирә, анда сезнең класста 50-дән ким маркалы мисаллар бар - хәтта яхшы көйләнгән модельләр дә көрәшә. Бу нульгә өйрәнү вакыты таләп итә, теләсә нинди тел яки кодлау белән эш итә һәм тулысынча үзәк эшкәрткеч җайланмада эшли.

    Килгән эчтәлекнең зур күләмен идарә итүче предприятияләр өчен - билетлар, социаль медиа искәрмәләре, продукт рецензияләре - Zstandard NCD классификаторы кыйммәтрәк модельләр нәтиҗәләрне чистартканчы, документларны реаль вакытта категорияләштерүче беренче пассажир роутер булып хезмәт итә ала. Бу ике этаплы торба гомуми төгәллекне саклап калганда, чыгымнарны сизелерлек киметә. 138,000 артык эшкуар кулланган Mewayzның 207-модульле бизнес ОС кебек масштабта кулланучылар ясаган эчтәлекне эшкәртүче платформалар, җиңел классификациядән хәбәрләр җибәрү, эчтәлекне билгеләү һәм авыр инфраструктурасыз кулланучылар тәҗрибәсен персональләштерү.

    Чикләүләр һәм иң яхшы практикалар нәрсә?

    Кысылуга нигезләнгән классификация билгеле булган чикләүләр бар, сез исәпкә алырга тиеш. Кыска текстлар (100 байт астында) ышанычсыз NCD баллары чыгара, чөнки компрессорның мәгънәле үрнәкләр төзү өчен җитәрлек мәгълүматлары юк. Техника шулай ук ​​белешмә текстларны сайлауда сизгер - начар сайланган вәкилләр төгәллекне кискен киметәләр. Nәм NCD пробабилистик модель түгел, ә дистанцион метрик булганга, ул табигый рәвештә ышаныч баллары китерми.

    Бу ысулдан күбрәк файдалану өчен: категориягә ким дигәндә 500 байт булган белешмә текстларны кулланыгыз, класска берничә мисалны берләштереп тәҗрибә ясагыз (бергә кушылган 2-3 вәкиллекле документ яхшырак кысу сүзлекләрен китерә), кысу алдыннан текст корпусын һәм киңлекне нормальләштерегез, һәм Zstandard кысу дәрәҗәләре буенча 3, 6, һәм 10 тизлек төгәллеген табу өчен. Кечкенә текст классификациясе өчен, домен корпусында Zstandard сүзлеген алдан әзерләгез - бу бер адым кыска документларда төгәллекне 8-12 процентка арттыра ала.

    Еш бирелә торган сораулар

    Кысылуга нигезләнгән классификация хисләр анализы өчен эшлиме?

    Булырга мөмкин, ләкин саклык белән. Хисләр анализы структур охшаш текстлар эчендә нечкә тональ аермаларны ачыклауны таләп итә. NCD тема классификациясе өчен яхшырак эшли, анда төрле категориядәге документлар төрле авазлар кулланалар. Күңел өчен, төгәллек гадәттә 55-60% тирәсе - очраклыдан яхшырак, ләкин җитештерүгә әзер түгел. NCD функцияләрен җиңел логистик регрессия моделе белән берләштерү нәтиҗәләрне сизелерлек яхшырта.

    3.14 алдыннан Python версияләрендә compression.zstd модулын куллана аламмы?

    No.к. Python 3.14'та compression.zstd модуле яңа. Элегерәк версияләр өчен PyPI'тан python-zstandard пакетын урнаштырыгыз, бу эквивалент compress () һәм decompress () функцияләрен тәэмин итә. NCD логикасы бер үк булып кала - импорт аңлатмасы гына үзгәрә. 3.14-ка күтәргәннән соң, сез өченче якка бәйләнешне тулысынча ташлый аласыз.

    Zstandard NCD косин охшашлыгы булган TF-IDF белән чагыштырганда ничек эшли?

    Баланслы мәгълүматлар базасы булган күп класслы тема классификациясендә, TF-IDF плюс косин охшашлыгы Zstandard NCD-ның 62-68% белән чагыштырганда 75-82% төгәллеккә ирешә. Ләкин, TF-IDF җиһазландырылган векторизатор, билгеләнгән лексика һәм телгә хас тукталыш исемлекләрен таләп итә. Zstandard NCD бу алдан эшкәртүне таләп итми, телләр өстендә эшли, лексик зурлыгына карамастан, яңа документларны классификацияли. Тиз прототиплаштыру яки күп телләрле мохит өчен, NCD еш эш системасына тизрәк юл.

    Сез автоматлаштырылган эчтәлек торбаларын төзисезме, клиент хәбәрләрен юнәлтәсезме, яки санлы бизнес өчен классификация логикасын ясыйсызмы, Python 3.14 эчендә урнаштырылган Zstandard ярдәме кысу нигезендәге NCDны элеккегә караганда кулайрак итә. Сезнең бизнес эчтәлеге, продуктлар, курслар, клиентлар белән үзара бәйләнешләр белән идарә итү өчен бер-бер артлы платформа эзлисез икән, бүген Mewayz белән төзи башлагыз һәм бу техниканы бөтен операциягездә эшләгез.

    классификацияли.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime