Hacker News

पायथन 3.14 क जेडएसटीडी मॉड्यूल क संग पाठ वर्गीकरण

पायथन 3.14 क जेडएसटीडी मॉड्यूल क संग पाठ वर्गीकरण पाठ केरऽ ई व्यापक विश्लेषण एकरऽ मूल घटक आरू व्यापक निहितार्थ केरऽ विस्तृत जांच प्रदान करै छै । फोकस के प्रमुख क्षेत्र चर्चा एहि बात पर केन्द्रित अछि : १. कोर तंत्र आ प्रो...

1 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
आब हमरा लग जतेक संदर्भ चाही से अछि। ब्लॉग पोस्ट लिखैत छी।

पायथन 3.14 क' ZSTD मॉड्यूल क' संग पाठ वर्गीकरण

पायथन 3.14 मानक पुस्तकालय मे compression.zstd मॉड्यूल कें परिचय देयत छै, आ इ मशीन लर्निंग मॉडल कें बिना पाठ वर्गीकरण कें लेल एकटा आश्चर्यजनक रूप सं शक्तिशाली दृष्टिकोण कें अनलॉक करयत छै. एक कंप्रेसर दू पाठ क॑ कतनी अच्छा तरह स॑ एक साथ निचोड़॑ सकै छै, ई मापी क॑ आपने ओकरऽ समानता निर्धारित करी सकै छियै — जेकरा क॑ नॉर्मलाइज्ड कम्प्रेशन डिस्टेंस (NCD) कहलऽ जाय छै — आरू अब॑ Zstandard एकरा उत्पादन कार्यभार लेली काफी तेज बनाबै छै ।

संपीड़न-आधारित पाठ वर्गीकरण वास्तव मे कोना काज करैत अछि ?

संपीड़न आधारित वर्गीकरण के पाछु के मूल विचार सूचना सिद्धांत में जड़ जमा लेने अछि | जब॑ Zstandard जैसनऽ संपीड़न एल्गोरिदम क॑ पाठ केरऽ ब्लॉक स॑ सामना करना पड़ै छै त॑ वू पैटर्न केरऽ आंतरिक शब्दकोश बनाबै छै । यदि दू ग्रंथ के शब्दावली, वाक्य रचना आरू संरचना समान छै त॑ ओकरा एक साथ संकुचित करला स॑ असगरे बड़ऽ पाठ क॑ संकुचित करला स॑ मात्र कुछ बड़ऽ परिणाम मिलै छै । यदि ई सब असंबंधित छै, त॑ संलग्न संपीड़ित आकार दूनू व्यक्तिगत आकारऽ के योग के नजदीक आबी जाय छै.

ई संबंध क॑ सामान्यीकृत संपीड़न दूरी सूत्र द्वारा कैप्चर करलऽ जाय छै: NCD(x, y) = (C(xy) - min(C(x), C(y))) / max(C(x), C(y)), जहाँ C(x) पाठ x केरऽ संपीड़ित आकार छै, आरू C(xy) संलग्न दूनू पाठ केरऽ संपीड़ित आकार छै । 0 के पास एनसीडी मान के मतलब छै कि पाठ बहुत समान छै, जबकि 1 के पास मान के मतलब छै कि ई लगभग कोनो सूचनात्मक सामग्री नै साझा करै छै.

ई तकनीक क॑ उल्लेखनीय बनाबै वाला बात ई छै कि एकरा म॑ कोनो ट्रेनिंग डाटा, कोनो टोकनाइजेशन, कोनो एम्बेडिंग, आरू कोनो जीपीयू के जरूरत नै छै । कंप्रेसर स्वयं पाठ के संरचना के सीखल गेल मॉडल के रूप में काज करैत अछि | "कम-संसाधन पाठ वर्गीकरण: कंप्रेसर के साथ एक पैरामीटर-मुक्त वर्गीकरण विधि" (2023) जैसनऽ शोध पत्रऽ म॑ प्रकाशित शोध न॑ ई सिद्ध करलकै कि gzip आधारित एनसीडी न॑ कुछ बेंचमार्क प॑ BERT क॑ टक्कर देल॑ छै, जेकरा स॑ ई दृष्टिकोण म॑ नयका रुचि पैदा होय गेलै ।

पायथन 3.14 के Zstandard मॉड्यूल एनसीडी के लेल गेम-चेंजर किएक अछि?

पायथन 3.14 सँ पहिने, Zstandard क उपयोग करबाक लेल तृतीय-पक्ष python-zstandard पैकेज कए इंस्टॉल करबाक आवश्यकता छल. नबका compression.zstd मॉड्यूल, जे पीईपी 784 कें माध्यम सं पेश कैल गेल छै, सीधा CPython कें साथ भेजल जायत छै. एकरऽ मतलब छै कि शून्य निर्भरता ओवरहेड आरू एक गारंटीड, स्थिर एपीआई जे मेटा केरऽ लड़ाई-परीक्षित libzstd द्वारा समर्थित छै. विशेष रूप स वर्गीकरण कार्य क लेल, Zstandard gzip या bzip2:

स कईटा फायदा प्रदान करैत अछि
  • गति: Zstandard तुलनीय अनुपात पर gzip सं 3-5x तेजी सं संकुचित करैत अछि, जाहि सं हजारों दस्तावेज पर बैच वर्गीकरण मिनटक बजाय सेकेंड मे व्यवहार्य भ' जाइत अछि
  • ट्यूनेबल संपीड़न स्तर: स्तर 1 सं 22 अहां कें अनुपात कें लेल गति कें व्यापार करय कें अनुमति देयत छै, जे अहां कें थ्रूपुट आवश्यकताक कें विरु द्ध एनसीडी परिशुद्धता कें कैलिब्रेट करय कें अनुमति देयत छै
  • शब्दकोश समर्थन: पूर्व-प्रशिक्षित जेडस्टैंडर्ड शब्दकोश छोट पाठक (4KB सं कम) कें संपीड़न मे नाटकीय रूप सं सुधार कयर सकय छै, जे ठीक दस्तावेज आकार सीमा छै जतय एनसीडी सटीकता सब सं बेसि मायने रखैत छै
  • स्ट्रीमिंग एपीआई: मॉड्यूल वृद्धिशील संपीड़न कें समर्थन करयत छै, जे वर्गीकरण पाइपलाइन कें सक्षम करयत छै जे पूरा कॉर्पोरा कें मेमोरी मे लोड करय कें बिना पाठ कें संसाधित करयत छै
  • मानक पुस्तकालय स्थिरता: कोनो संस्करण टकराव नहि, कोनो आपूर्ति श्रृंखला जोखिम नहि — संपीड़न आयात सँ zstd हर पायथन 3.14+ स्थापना पर काज करैत अछि
क <ब्लॉककोट>

मुख्य अंतर्दृष्टि: संपीड़न-आधारित वर्गीकरण तखन बेसी नीक काज करैत अछि जखन अहाँ केँ एकटा त्वरित, निर्भरता-मुक्त आधार रेखाक आवश्यकता होइत अछि जे बहुभाषी पाठ केँ देशी रूप सँ संभालैत अछि. चूँकि कंप्रेसर भाषा-विशिष्ट टोकन के बजाय कच्चा बाइट पर संचालित होय छै, ई चीनी, अरबी या मिश्रित भाषा के दस्तावेजऽ क॑ अंग्रेजी के तरह प्रभावी ढंग स॑ वर्गीकृत करै छै — कोनो भाषा मॉडल के जरूरत नै छै.

के अछि

व्यावहारिक कार्यान्वयन केहन लगैत अछि ?

पायथन 3.14 मे एकटा न्यूनतम एनसीडी वर्गीकारक 30 लाइनक सं कम मे फिट भ' जाइत अछि. अहां प्रत्येक संदर्भ पाठ (प्रति श्रेणी एकटा) कें एन्कोड करय छी, तखन प्रत्येक नव दस्तावेज कें लेल, हर संदर्भ कें विरु द्ध एनसीडी कें गणना करूं आ सब सं कम दूरी वाला श्रेणी कें असाइन करूं. एतय मूल तर्क अछि :

पहिने, संपीड़न आयात zstd सँ क संग मॉड्यूल आयात करू. एकटा एहन फंक्शन परिभाषित करू जे दू बाइट स्ट्रिंग कें स्वीकार करयत छै, प्रत्येक कें व्यक्तिगत रूप सं संकुचित करयत छै, ओकर संयोजन कें संकुचित करयत छै, आ एनसीडी स्कोर वापस करयत छै. तखन एकटा शब्दकोश बनाउ जे श्रेणी लेबल कें प्रतिनिधि नमूना पाठक कें मैपिंग करयत छै. प्रत्येक आबै वाला दस्तावेज के लेल, श्रेणी पर पुनरावृत्ति करू, एनसीडी के गणना करू, आओर न्यूनतम चुनू.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

एजी न्यूज डाटासेट (चार-वर्गीय समाचार वर्गीकरण) के विरुद्ध बेंचमार्क म॑, संपीड़न स्तर 3 प॑ Zstandard के उपयोग करलऽ जाय वाला ई दृष्टिकोण मोटा-मोटी 62-65% सटीकता प्राप्त करै छै — कोनों प्रशिक्षण चरण नै, कोनों मॉडल डाउनलोड नै, आरू एकल सीपीयू कोर प॑ लगभग 8,000 दस्तावेज प्रति सेकंड के वर्गीकरण गति. संपीड़न स्तर क॑ 10 तलक बढ़ाबै स॑ सटीकता लगभग 68% तलक पहुँची जाय छै जेकरा स॑ थ्रूपुट क॑ कम करी क॑ लगभग 2,500 दस्तावेज प्रति सेकंड तलक पहुँचैलऽ जाय छै । ई संख्या फाइन-ट्यून ट्रांसफार्मर सं मेल नहि खायत छै, मुदा इ प्रोटोटाइपिंग, डाटा लेबलिंग ट्रायज, या वातावरण कें लेल एकटा मजबूत आधार रेखा प्रदान करयत छै जतय एमएल निर्भरता कें इंस्टॉल करनाय अव्यावहारिक छै.

एनसीडी कें तुलना पारंपरिक एमएल वर्गीकरण सं कोना कैल जायत छै?

ईमानदार जवाब इ छै की एनसीडी उच्च दांव वाला उत्पादन प्रणाली मे ट्रांसफार्मर आधारित वर्गीकारक कें प्रतिस्थापन नहि छै. बीईआरटी या जीपीटी आधारित वर्गीकारक जैना मॉडल मानक बेंचमार्क पर 94%+ सटीकता प्राप्त करय छै. मुदा, जेडस्टैंडर्ड के संग एनसीडी एकटा अनूठा आला पर कब्जा क लेने अछि. ई कोल्ड-स्टार्ट परिदृश्य म॑ उत्कृष्टता हासिल करै छै, जहाँ आपने के पास प्रति वर्ग 50 स॑ कम लेबल वाला उदाहरण छै — एगो ऐन्हऽ स्थिति जहाँ फाइन-ट्यून मॉडल भी संघर्ष करै छै । एकरा लेल शून्य प्रशिक्षण समय चाही, कोनो भाषा या एन्कोडिंग के बिना कोनो संशोधन के संभालैत अछि, आओर पूर्ण रूप सं निरंतर मेमोरी के संग सीपीयू पर चलैत अछि.

आबै वाला सामग्री कें पैघ मात्रा कें प्रबंधन करय वाला व्यवसायक कें लेल — समर्थन टिकट, सोशल मीडिया उल्लेख, उत्पाद समीक्षा — एकटा जेडस्टैंडर्ड एनसीडी वर्गीकारक एकटा फर्स्ट-पास राउटर कें रूप मे काज कयर सकय छै जे अधिक महग मॉडल कें परिणामक कें परिष्कृत करय सं पहिले वास्तविक समय मे दस्तावेजक कें श्रेणीबद्ध करय छै. दू चरणक कें इ पाइपलाइन समग्र सटीकता कें बरकरार रखयत अनुमान लागत मे काफी कमी करएयत छै. पैमाना पर उपयोगकर्ता द्वारा उत्पन्न सामग्री कें संसाधित करय वाला प्लेटफार्म, जेना कि मेवेज कें 207-मॉड्यूल बिजनेस ओएस जेकर उपयोग 138,000 सं बेसि उद्यमी द्वारा कैल जायत छै, संदेश कें रूट करय, सामग्री टैग करय, आ बिना भारी बुनियादी ढाँचा कें उपयोगकर्ता अनुभव कें व्यक्तिगत बनावा कें लेल हल्का वर्गीकरण सं लाभान्वित करय छै.

सीमा आ सर्वोत्तम प्रथा की अछि ?

संपीड़न-आधारित वर्गीकरण मे ज्ञात सीमा अछि जकर लेखा-जोखा अहाँ केँ करबाक चाही. छोट पाठ (100 बाइट सं कम) अविश्वसनीय एनसीडी स्कोर पैदा करएयत छै, कियाकि कंप्रेसर कें पास सार्थक पैटर्न बनावा कें लेल पर्याप्त डाटा नहि होयत छै. ई तकनीक संदर्भ ग्रंथऽ के चुनाव के प्रति भी संवेदनशील छै — खराब तरीका स॑ चुनलऽ गेलऽ प्रतिनिधि सटीकता क॑ तेजी स॑ घटाबै छै । आरू एनसीडी संभाव्यतावादी मॉडल के बजाय दूरी के मीट्रिक होय के कारण स्वाभाविक रूप स॑ ई विश्वास स्कोर पैदा नै करै छै.

ई दृष्टिकोण स॑ सबसें अधिक प्राप्त करै लेली: प्रति श्रेणी कम स॑ कम 500 बाइट्स के संदर्भ पाठ के उपयोग करलऽ जाय, प्रति वर्ग कई उदाहरणऽ क॑ जोड़ै के प्रयोग करलऽ जाय (2-3 प्रतिनिधि दस्तावेज क॑ एक साथ जोड़लऽ जाय स॑ बेहतर संपीड़न शब्दकोश मिलै छै), संपीड़न स॑ पहल॑ पाठ आवरण आरू व्हाइटस्पेस क॑ सामान्य करलऽ जाय, आरू अपनऽ गति-सटीकता मीठऽ जगह खोजै लेली Zstandard संपीड़न स्तर 3, 6, आरू 10 के पार बेंचमार्क करलऽ जाय. छोट-पाठ वर्गीकरण कें लेल, अपन डोमेन कॉर्पस पर Zstandard शब्दकोश कें पूर्व-प्रशिक्षित करूं — इ एकल चरण छोट दस्तावेजक पर 8-12 प्रतिशत अंकक कें सटीकता मे सुधार कयर सकय छै.

बार-बार पूछल जाय वाला प्रश्न

की संपीड़न आधारित वर्गीकरण भावना विश्लेषण के लेल काज करैत अछि ?

ई भ' सकैत अछि, मुदा चेतावनी के संग। भाव विश्लेषण के लेलऽ संरचनात्मक रूप स॑ समान ग्रंथऽ के भीतर सूक्ष्म तान के अंतर के पता लगाबै के जरूरत छै । एनसीडी विषय वर्गीकरण कें लेल बेहतर काज करएयत छै जत विभिन्न श्रेणीक मे दस्तावेजक मे अलग-अलग शब्दावली कें उपयोग कैल जायत छै. भावना के लेलऽ सटीकता आम तौर प॑ ५५-६०% के आसपास उतरै छै — यादृच्छिक स॑ बेहतर, लेकिन अपनऽ दम प॑ उत्पादन लेली तैयार नै । एनसीडी सुविधाक कें हल्का लॉजिस्टिक रिग्रेशन मॉडल कें साथ जोड़ला सं परिणाम मे काफी सुधार होयत छै.

की हम 3.14 सँ पहिने पायथन संस्करण मे compression.zstd मॉड्यूल क उपयोग क' सकैत छी?

सं. compression.zstd मॉड्यूल पायथन 3.14 मे नव अछि. पहिने क संस्करण क लेल, PyPI स python-zstandard पैकेज कए इंस्टॉल करू, जे समतुल्य compress() आओर decompress() फ़ंक्शन प्रदान करैत अछि. एनसीडी तर्क समान रहैत अछि — केवल आयात कथन बदलैत अछि । एक बेर जखन अहाँ 3.14 मे अपग्रेड करब, तखन अहाँ तृतीय-पक्ष निर्भरता केँ पूर्ण रूप सँ छोड़ि सकैत छी.

कोसाइन समानता वाला टीएफ-आईडीएफ कें तुलना मे जेडस्टैंडर्ड एनसीडी कोना प्रदर्शन करय छै?

संतुलित डाटासेट कें साथ बहु-वर्ग विषय वर्गीकरण पर, टीएफ-आईडीएफ प्लस कोसाइन समानता आमतौर पर जेडस्टैंडर्ड एनसीडी कें 62-68% कें तुलना मे 75-82% सटीकता प्राप्त करय छै. लेकिन टीएफ-आईडीएफ कें लेल फिट वेक्टराइजर, परिभाषित शब्दावली, आ भाषा-विशिष्ट स्टॉपवर्ड सूची कें आवश्यकता होयत छै. जेडस्टैंडर्ड एनसीडी कें लेल इ प्रीप्रोसेसिंग मे सं कोनों कें आवश्यकता नहि छै, इ बॉक्स सं बाहर भाषाक मे काज करयत छै, आ शब्दावली कें आकार कें परवाह कैने बिना लगातार समय मे नव दस्तावेजक कें वर्गीकृत करयत छै. तेजी सं प्रोटोटाइपिंग या बहुभाषी वातावरण कें लेल, एनसीडी अक्सर कोनों कार्य प्रणाली कें लेल तेज मार्ग छै.

चाहे अहां स्वचालित सामग्री पाइपलाइन बना रहल छी, ग्राहक संदेश कें रूटिंग क रहल छी, या अपन डिजिटल व्यवसाय कें लेल वर्गीकरण तर्क कें प्रोटोटाइप बना रहल छी, पायथन 3.14 कें अंतर्निहित Zstandard समर्थन संपीड़न आधारित एनसीडी कें पहिले सं बेसि सुलभ बनायत छै. यदि अहां अपन व्यवसायिक सामग्री, उत्पाद, पाठ्यक्रम, आ ग्राहक बातचीत कें प्रबंधन कें लेल एकटा ऑल-इन-वन प्लेटफॉर्म कें तलाश मे छी, त आइये मेवेज कें साथ निर्माण शुरू करूं आ इ तकनीक कें अपन पूरा संचालन मे काज मे लाउ.