Hacker News

पायथन 3.14 के जेडएसटीडी मॉड्यूल के साथ पाठ वर्गीकरण

पायथन 3.14 के जेडएसटीडी मॉड्यूल के साथ पाठ वर्गीकरण पाठ के एह व्यापक विश्लेषण में एकर मूल घटक आ व्यापक निहितार्थ के विस्तृत जांच कइल गइल बा। फोकस के प्रमुख क्षेत्र बा चर्चा के केंद्र में बा: कोर तंत्र आ प्रो...

1 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
अब हमरा लगे जवन संदर्भ चाहीं ऊ सब बा. ब्लॉग पोस्ट लिखत बानी।

पायथन 3.14 के जेडएसटीडी मॉड्यूल के साथ पाठ वर्गीकरण

पाइथन 3.14 मानक लाइब्रेरी में compression.zstd मॉड्यूल के परिचय देला, आ ई बिना मशीन लर्निंग मॉडल के टेक्स्ट क्लासिफिकेशन खातिर एगो आश्चर्यजनक रूप से शक्तिशाली तरीका के अनलॉक करे ला। कंप्रेसर दू गो टेक्स्ट सभ के एक साथ केतना बढ़िया से निचोड़ सके ला ई नाप के आप इनहन के समानता के निर्धारण क सके लीं — ई एगो तकनीक हवे जेकरा के नॉर्मलाइज्ड कम्प्रेशन डिस्टेंस (NCD) कहल जाला — आ अब जेडस्टैंडर्ड एकरा के प्रोडक्शन वर्कलोड खातिर काफी तेज बना देले बा।

संपीड़न आधारित पाठ वर्गीकरण वास्तव में कइसे काम करेला?

संपीड़न आधारित वर्गीकरण के पीछे के मूल बिचार के जड़ सूचना सिद्धांत में बा। जब जेडस्टैंडर्ड नियर कम्प्रेशन एल्गोरिदम के टेक्स्ट के ब्लॉक के सामना करे ला तब ऊ पैटर्न सभ के आंतरिक शब्दकोश बनावे ला। अगर दू गो पाठ सभ में शब्दावली, वाक्य रचना आ संरचना एकही नियर होखे तब इनहन के एक साथ संकुचित कइला से अकेले बड़हन पाठ के संकुचित कइला से खाली तनिका बड़ परिणाम मिले ला। अगर इनहन के संबंध ना होखे तब संलग्न संकुचित आकार दुनों अलग-अलग साइज के योग के नजदीक पहुँच जाला।

| 0 के लगे एनसीडी मान के मतलब होला कि पाठ सभ बहुत समान होलें जबकि 1 के लगे मान के मतलब होला कि ई लगभग कौनों जानकारी सामग्री ना साझा करे लें।

एह तकनीक के उल्लेखनीय बनावे वाला बात ई बा कि एकरा खातिर कवनो ट्रेनिंग डेटा के जरूरत नइखे, ना कवनो टोकनाइजेशन, ना कवनो एम्बेडिंग, आ ना कवनो जीपीयू. कंप्रेसर खुद पाठ के संरचना के सीखल मॉडल के काम करेला। "लो-रिसोर्स टेक्स्ट क्लासिफिकेशन: ए पैरामीटर-फ्री क्लासिफिकेशन मेथड विद कंप्रेसर" (2023) नियर पेपर सभ में प्रकाशित रिसर्च सभ से पता चलल कि gzip आधारित एनसीडी कुछ बेंचमार्क सभ पर BERT के टक्कर देले, एह तरीका में नया रुचि पैदा कइलस।

पायथन 3.14 के जेडस्टैंडर्ड मॉड्यूल एनसीडी खातिर गेम-चेंजर काहे बा?

पायथन 3.14 से पहिले, Zstandard के इस्तेमाल से थर्ड-पार्टी python-zstandard पैकेज के इंस्टॉल करे के जरूरत रहे। नया compression.zstd मॉड्यूल, पीईपी 784 के माध्यम से पेश कइल गइल, सीधे सीपाइथन के साथ भेजल जाला। एकर मतलब बा कि जीरो डिपेंडेंसी ओवरहेड आ मेटा के लड़ाई-परीक्षित libzstd द्वारा समर्थित एगो गारंटीड, स्थिर एपीआई। खास तौर पर वर्गीकरण के काम खातिर, Zstandard gzip भा bzip2:

के तुलना में कई गो फायदा देला
    के बा
  • गति: जेडस्टैंडर्ड तुलनीय अनुपात पर gzip से 3-5x तेजी से संकुचित करे ला, जेकरा चलते हजारन दस्तावेज सभ पर बैच क्लासिफिकेशन मिनट के बजाय सेकेंड में व्यवहार्य हो जाला
  • ट्यूनेबल संपीड़न स्तर: लेवल 1 से 22 ले रउआँ के अनुपात खातिर गति के ट्रेडिंग करे ला, जेकरा से रउआँ थ्रूपुट के जरूरत के खिलाफ एनसीडी परिशुद्धता के कैलिब्रेट क सके लीं
  • शब्दकोश समर्थन: पहिले से प्रशिक्षित जेडस्टैंडर्ड शब्दकोश सभ छोट पाठ सभ के संपीड़न (4KB से कम) में नाटकीय रूप से सुधार क सके लीं, ई ठीक दस्तावेज साइज रेंज हवे जहाँ एनसीडी के सटीकता सभसे महत्व के होला
  • स्ट्रीमिंग एपीआई: मॉड्यूल इंक्रीमेंटल कम्प्रेशन के सपोर्ट करे ला, वर्गीकरण पाइपलाइन सभ के सक्षम बनावे ला जे पूरा कॉर्पोरा के मेमोरी में लोड कइले बिना टेक्स्ट सभ के प्रोसेस करे लें
  • मानक लाइब्रेरी स्थिरता: कवनो संस्करण में टकराव ना होखे, कवनो सप्लाई चेन के जोखिम ना होखे — from compression import zstd हर पायथन 3.14+ इंस्टॉलेशन पर काम करेला
के बा <ब्लॉककोट> के बा

मुख्य अंतर्दृष्टि: संपीड़न आधारित वर्गीकरण तब सभसे नीक काम करे ला जब रउआँ के एगो त्वरित, निर्भरता मुक्त आधार रेखा के जरूरत होखे जे बहुभाषी पाठ के नेटिव रूप से संभाले। चूँकि कंप्रेसर भाषा-बिसेस टोकन के बजाय कच्चा बाइट पर काम करे लें, ई चीनी, अरबी भा मिश्रित भाषा के दस्तावेज सभ के ओतने कारगर तरीका से वर्गीकृत करे लें जेतना कि अंगरेजी — कौनों भाषा मॉडल के जरूरत ना पड़े ला।

के बा

व्यावहारिक कार्यान्वयन कइसन लउकेला?

पायथन 3.14 में एगो न्यूनतम एनसीडी क्लासिफायर 30 लाइन के नीचे फिट होला। रउआँ हर संदर्भ पाठ (प्रति श्रेणी में एक) के एन्कोड करीं, फिर हर नया दस्तावेज खातिर, हर संदर्भ के खिलाफ एनसीडी के गणना करीं आ सभसे कम दूरी वाला श्रेणी के असाइन करीं। इहाँ मूल तर्क बा:

पहिले, संपीड़न आयात zstd से के साथ मॉड्यूल आयात करीं। अइसन फंक्शन परिभाषित करीं जे दू गो बाइट स्ट्रिंग के स्वीकार करे, हर एक के अलग-अलग संकुचित करे, इनहन के संयोजन के संकुचित करे आ एनसीडी स्कोर वापस करे। फिर प्रतिनिधि नमूना पाठ सभ के श्रेणी लेबल सभ के मैपिंग करे वाला शब्दकोश बनाईं। हर आवे वाला दस्तावेज खातिर, श्रेणी सभ पर पुनरावृत्ति करीं, एनसीडी के गणना करीं आ न्यूनतम चुनीं।

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

एजी न्यूज डाटासेट (चार क्लास न्यूज क्लासिफिकेशन) के खिलाफ बेंचमार्क में, संपीड़न लेवल 3 पर जेडस्टैंडर्ड के इस्तेमाल से ई तरीका मोटा-मोटी 62-65% सटीकता हासिल करे ला — कौनों ट्रेनिंग स्टेप ना, कौनों मॉडल डाउनलोड ना, आ एकही सीपीयू कोर पर लगभग 8,000 दस्तावेज प्रति सेकंड के क्लासिफिकेशन स्पीड ना। संपीड़न स्तर के 10 तक बढ़ावे से सटीकता लगभग 68% तक पहुँच जाला आ थ्रूपुट के लगभग 2,500 दस्तावेज प्रति सेकंड तक कम करे के कीमत पर। ई नंबर सभ फाइन ट्यून कइल ट्रांसफार्मर सभ से मेल ना खालें, बाकी ई प्रोटोटाइपिंग, डेटा लेबलिंग ट्रायज, या अइसन वातावरण खातिर एगो मजबूत आधार रेखा उपलब्ध करावे लें जहाँ एमएल निर्भरता सभ के इंस्टॉल कइल अव्यावहारिक होखे।

एनसीडी के तुलना पारंपरिक एमएल वर्गीकरण से कईसे कईल जाला?

ईमानदार जवाब इ बा कि एनसीडी हाई-स्टेक प्रोडक्शन सिस्टम में ट्रांसफार्मर आधारित क्लासिफायर के जगह ना ह। BERT या GPT आधारित क्लासिफायर नियर मॉडल सभ मानक बेंचमार्क सभ पर 94%+ सटीकता हासिल करे लें। हालांकि, जेडस्टैंडर्ड के संगे एनसीडी एगो अनोखा आला प कब्जा क लेले बा। ई कोल्ड-स्टार्ट परिदृश्य में बेहतर होला जहाँ रउआँ के प्रति क्लास 50 से कम लेबल वाला उदाहरण होखे — अइसन स्थिति जहाँ फाइन ट्यून कइल मॉडल भी संघर्ष करे लें। एकरा खातिर जीरो ट्रेनिंग टाइम के जरूरत होला, बिना संशोधन के कवनो भाषा भा एन्कोडिंग के संभाले ला आ पूरा तरीका से लगातार मेमोरी के साथ सीपीयू पर चले ला।

आने वाली सामग्री के बड़हन मात्रा के प्रबंधन करे वाला बिजनेस सभ खातिर — सपोर्ट टिकट, सोशल मीडिया के जिकिर, प्रोडक्ट रिव्यू — जेडस्टैंडर्ड एनसीडी क्लासिफायर फर्स्ट-पास राउटर के काम क सके ला जे अधिका महंगा मॉडल सभ के परिणाम के परिष्कृत करे से पहिले रियल टाइम में दस्तावेज सभ के श्रेणीबद्ध करे ला। दू चरण के एह पाइपलाइन से अनुमान के लागत में काफी कमी आवेला जबकि समग्र सटीकता भी बनल रहेला। पैमाना पर यूजर द्वारा बनावल सामग्री के प्रोसेसिंग करे वाला प्लेटफार्म सभ, जइसे कि मेवेज के 207 मॉड्यूल वाला बिजनेस ओएस जेकर इस्तेमाल 138,000 से ढेर उद्यमी लोग करे ला, संदेश के रूट करे, सामग्री टैग करे आ बिना भारी बुनियादी ढांचा के यूजर के अनुभव के पर्सनलाइज करे खातिर हल्का वर्गीकरण से फायदा होला।

का सीमा आ बेहतरीन तरीका बा?

संपीड़न आधारित वर्गीकरण में ज्ञात सीमा बा जेकर हिसाब रउआँ के चाहीं। छोट टेक्स्ट (100 बाइट्स से कम) अविश्वसनीय एनसीडी स्कोर पैदा करे लें काहें से कि कंप्रेसर में सार्थक पैटर्न बनावे खातिर पर्याप्त डेटा ना होला। ई तकनीक संदर्भ पाठ सभ के चुनाव के प्रति भी संवेदनशील बा — खराब तरीका से चुनल गइल प्रतिनिधि सभ सटीकता के तेजी से गिरावे लें। आ काहें से कि एनसीडी संभाव्यतावादी मॉडल ना हो के दूरी के मीट्रिक हवे, ई स्वाभाविक रूप से बिस्वास स्कोर ना पैदा करे ला।

| छोट-पाठ वर्गीकरण खातिर, अपना डोमेन कॉर्पस पर Zstandard शब्दकोश के पहिले से प्रशिक्षित करीं — ई एकही कदम छोट दस्तावेज सभ पर 8-12 प्रतिशत अंक के सटीकता में सुधार क सके ला।

अक्सर पूछल जाए वाला सवाल

का संपीड़न आधारित वर्गीकरण भावना विश्लेषण खातिर काम करेला?

हो सकेला, बाकिर चेतावनी के साथे। भाव विश्लेषण में संरचनात्मक रूप से समान ग्रंथन के भीतर सूक्ष्म तान के अंतर के पता लगावे के पड़ेला। एनसीडी बिसय वर्गीकरण खातिर बेहतर काम करे ला जहाँ अलग-अलग श्रेणी के दस्तावेज सभ में अलग-अलग शब्दावली के इस्तेमाल होला। भावना खातिर, सटीकता आमतौर पर 55-60% के आसपास उतरे ले — यादृच्छिक से बेहतर, बाकी अपने आप में उत्पादन खातिर तइयार ना। एनसीडी फीचर सभ के हल्का लॉजिस्टिक रिग्रेशन मॉडल के साथ मिलावे से परिणाम में काफी सुधार होला।

का हम 3.14 से पहिले के पायथन संस्करण में compression.zstd मॉड्यूल के इस्तेमाल कर सकत बानी?

नंबर के बा। compression.zstd मॉड्यूल पायथन 3.14 में नया बा। पहिले के संस्करण सभ खातिर, PyPI से python-zstandard पैकेज इंस्टॉल करीं, जवन समकक्ष compress()decompress() फंक्शन देला। एनसीडी के तर्क एके जइसन रहेला — खाली आयात कथन बदलेला। एक बेर रउआँ 3.14 में अपग्रेड कइला के बाद, रउआँ थर्ड-पार्टी निर्भरता के पूरा तरीका से छोड़ सकत बानी।

कोसाइन समानता वाला टीएफ-आईडीएफ के तुलना में जेडस्टैंडर्ड एनसीडी कईसन प्रदर्शन करेला?

संतुलित डाटासेट के साथ बहु-वर्गीय बिसय वर्गीकरण पर, टीएफ-आईडीएफ प्लस कोसाइन समानता आमतौर पर जेडस्टैंडर्ड एनसीडी के 62-68% के तुलना में 75-82% सटीकता हासिल करे ले। हालाँकि, टीएफ-आईडीएफ खातिर फिट वेक्टराइजर, परिभाषित शब्दावली आ भाषा-बिसेस स्टॉपवर्ड लिस्ट के जरूरत होला। जेडस्टैंडर्ड एनसीडी में एह में से कवनो प्रीप्रोसेसिंग के जरूरत ना पड़े ला, ई बॉक्स से बाहर भाषा सभ में काम करे ला आ शब्दावली के आकार के परवाह कइले बिना लगातार समय में नया दस्तावेज सभ के वर्गीकरण करे ला। तेजी से प्रोटोटाइपिंग भा बहुभाषी वातावरण खातिर एनसीडी अक्सर कामकाजी सिस्टम के तेज रास्ता होला।

चाहे रउआँ स्वचालित सामग्री पाइपलाइन बनावत होखीं, ग्राहक संदेश के रूटिंग करत होखीं, या अपना डिजिटल बिजनेस खातिर वर्गीकरण तर्क के प्रोटोटाइप बनावत होखीं, पायथन 3.14 के बिल्ट-इन Zstandard सपोर्ट संपीड़न आधारित एनसीडी के पहिले से ढेर सुलभ बना देला। अगर रउआँ आपन बिजनेस सामग्री, उत्पाद, कोर्स, आ ग्राहक बातचीत के प्रबंधन खातिर एगो ऑल-इन-वन प्लेटफार्म के तलाश में बानी, आज ही मेवेज के साथ निर्माण शुरू करीं आ एह तकनीक सभ के अपना पूरा ऑपरेशन में काम में लगाईं।

में वर्गीकृत करे ला

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime