Hacker News

पायथन 3.14 दे जेडएसटीडी मॉड्यूल कन्नै पाठ वर्गीकरण

पायथन 3.14 दे जेडएसटीडी मॉड्यूल कन्नै पाठ वर्गीकरण पाठ दा एह् व्यापक विश्लेषण इसदे मूल घटकें ते व्यापक निहितार्थें दी विस्तृत जांच पेश करदा ऐ। ध्यान दे प्रमुख क्षेत्र चर्चा इस गल्लै उप्पर केंद्रत ऐ: कोर तंत्र ते प्रो...

1 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
हुण मेरे कोल सारा संदर्भ ऐ जिसदी मेरी लोड़ ऐ। मैं ब्लॉग पोस्ट लिखना ऐ।

पायथन 3.14 दे जेडएसटीडी मॉड्यूल कन्नै पाठ वर्गीकरण

पाइथन 3.14 मानक लाइब्रेरी च compression.zstd मॉड्यूल गी पेश करदा ऐ, ते एह् मशीन लर्निंग मॉडल दे बगैर पाठ वर्गीकरण आस्तै इक हैरानी आह् ला शक्तिशाली तरीका अनलॉक करदा ऐ. एह् मापने कन्नै जे इक कंप्रेसर दो पाठें गी किन्नी अच्छी तरह कन्नै निचोड़ सकदा ऐ, तुस उंदी समानता दा निर्धारण करी सकदे ओ — इक तकनीक जिसगी नॉर्मलाइज्ड कम्प्रेशन डिस्टेंस (एनसीडी) आखेआ जंदा ऐ — ते हुन Zstandard इसगी उत्पादन वर्कलोड आस्तै काफी तेज़ बनांदा ऐ।

संपीड़न-आधारित पाठ वर्गीकरण असल च किस चाल्ली कम्म करदा ऐ ?

संपीड़न-आधारत वर्गीकरण दे पिच्छें दा मूल विचार सूचना सिद्धांत च जड़ें दा ऐ । जदूं Zstandard जनेह् संपीड़न एल्गोरिथ्म पाठ दे ब्लॉक कन्नै सामना करदा ऐ तां ओह् पैटर्न दा इक आंतरिक शब्दकोश बनांदा ऐ। जेकर दो पाठें च शब्दावली, वाक्य रचना ते संरचना इक जेही होंदी ऐ तां उनेंगी इकट्ठा करियै संकुचित करने कन्नै सिर्फ बड्डे पाठ गी संकुचित करने थमां किश बड्डा नतीजा गै पैदा होंदा ऐ। जेकर एह् असंबद्ध न तां संलग्न संपीड़ित आकार दौनें व्यक्तिगत आकारें दे योग दे नेड़ै औंदा ऐ ।

इस रिश्ते गी सामान्यीकृत संपीड़न दूरी सूत्र कन्नै कैप्चर कीता जंदा ऐ: NCD(x, y) = (C(xy) - min(C(x), C(y))) / max(C(x), C(y)), जित्थें C(x) पाठ x दा संकुचित आकार ऐ, ते C(xy) जुड़े दे दो पाठें दा संपीड़ित आकार ऐ। 0 दे कोल एनसीडी मान दा मतलब ऐ जे पाठ बेह् तर समान न, जदके 1 दे कोल इक मान दा मतलब ऐ जे ओह् लगभग कोई बी सूचनात्मक सामग्री नेईं सांझा करदे न.

इस तकनीक गी उल्लेखनीय बनाने आह् ली गल्ल एह् ऐ जे इस च कोई प्रशिक्षण डेटा, कोई टोकनीकरण, कोई एम्बेडिंग, ते कोई जीपीयू दी लोड़ नेईं ऐ. कंप्रेसर अपने आप गै पाठ दी संरचना दे सिक्खे दे माडल दे रूप च कम्म करदा ऐ। "कम-संसाधन पाठ वर्गीकरण: कंप्रेसर कन्नै इक पैरामीटर-मुक्त वर्गीकरण विधि" (2023) जनेह् शोध पत्रें च प्रकाशत शोध ने दस्सेआ जे जीज़िप आह् ली एनसीडी ने किश बेंचमार्कें पर बीईआरटी कन्नै टक्कर लैता ऐ, जिसदे कन्नै इस दृष्टिकोण च नमीं रुचि पैदा होई।

पायथन 3.14 दा Zstandard मॉड्यूल एनसीडी आस्तै इक गेम-चेंजर कीऽ ऐ ?

पायथन 3.14 थमां पैह् ले, Zstandard दा इस्तेमाल करने आस्तै त्रीयें पार्टी python-zstandard पैकेज गी इंस्टाल करने दी लोड़ ही. नमां compression.zstd मॉड्यूल, जेह् ड़ा पीईपी 784 दे राहें पेश कीता गेदा ऐ, सीधे सीपाइथन कन्नै भेजदा ऐ. इसदा मतलब ऐ जे शून्य निर्भरता ओवरहेड ते मेटा दी लड़ाई-परीक्षित libzstd आसेआ समर्थत इक गारंटी, स्थिर एपीआई. खास तौर उप्पर वर्गीकरण कम्में आस्तै, Zstandard gzip जां bzip2:

थमां केईं फायदे पेश करदा ऐ <उल>
  • गति: Zstandard तुलनात्मक अनुपात च gzip थमां 3-5x तेज़ी कन्नै संकुचित करदा ऐ, जिस कन्नै हज़ारें दस्तावेजें पर बैच वर्गीकरण गी मिनटें दी बजाय सेकंडें च व्यवहार्य बनांदा ऐ
  • संपीड़न स्तर ट्यूनेबल: स्तर 1 थमां 22 तुसेंगी अनुपात आस्तै गति दा व्यापार करने दी अनुमति दिंदे न, जिस कन्नै तुसेंगी थ्रूपुट दी जरूरतें दे खलाफ एनसीडी परिशुद्धता गी कैलिब्रेट करने दी इजाजत दित्ती जंदी ऐ
  • शब्दकोश समर्थन: पूर्व-प्रशिक्षित Zstandard शब्दकोश छोटे पाठें दे संपीड़न च नाटकीय सुधार करी सकदियां न (4KB थमां हेठ), जेह् ड़ी बिल्कुल दस्तावेज आकार सीमा ऐ जित्थें एनसीडी सटीकता सारें शा मती महत्व आह् ली ऐ
  • स्ट्रीमिंग एपीआई: मॉड्यूल वृद्धिशील संपीड़न दा समर्थन करदा ऐ, वर्गीकरण पाइपलाइन गी सक्षम बनांदा ऐ जेह् ड़ी मेमोरी च पूरे कॉर्पोरा लोड कीते बगैर पाठें गी संसाधित करदी ऐ
  • मानक लाइब्रेरी स्थिरता: कोई संस्करण टकराव नेईं ऐ, कोई आपूर्ति श्रृंखला दा जोखिम नेईं — संपीड़न आयात थमां zstd हर पायथन 3.14+ इंस्टालेशन पर कम्म करदा ऐ
  • दा ऐ <ब्लॉककोट> दा

    मुख्य अंतर्दृष्टि: संपीड़न-आधारत वर्गीकरण उसलै बेह् तर कम्म करदा ऐ जिसलै तुसेंगी इक त्वरित, निर्भरता-मुक्त आधार रेखा दी लोड़ होंदी ऐ जेह् ड़ी बहुभाषी पाठ गी देशी रूप कन्नै संभालदी ऐ. कीजे कंप्रेसर भाशा-विशिष्ट टोकन दी बजाय कच्चे बाइटें पर कम्म करदे न, इसलेई एह् चीनी, अरबी जां मिश्रित भाशा दे दस्तावेजें गी उतनी गै प्रभावी ढंगै कन्नै वर्गीकृत करदे न जितना कि अंग्रेजी — कुसै बी भाशा मॉडल दी लोड़ नेईं ऐ.

    दा

    व्यावहारिक कार्यान्वयन केह् दिखदा ऐ ?

    पाइथन 3.14 च इक न्यूनतम एनसीडी वर्गीकारक 30 लाइनें दे हेठ फिट होंदा ऐ। तुस हर संदर्भ पाठ (प्रति श्रेणी इक) गी एन्कोड करदे ओ, फिर हर इक नमें दस्तावेज आस्तै, हर संदर्भ दे खलाफ एनसीडी दी गणना करो ते श्रेणी गी घट्ट शा घट्ट दूरी आह् ली असाइन करो। इत्थें मूल तर्क ऐ:

    पैह् ले, संपीड़न आयात zstd थमां कन्नै मॉड्यूल आयात करो. इक ऐसा फंक्शन परिभाशत करो जेह् ड़ा दो बाइट स्ट्रिंगें गी स्वीकार करदा ऐ, हर इक गी व्यक्तिगत रूप कन्नै संकुचित करदा ऐ, उंदे संयोजन गी संकुचित करदा ऐ, ते एनसीडी स्कोर वापस करदा ऐ. फिर प्रतिनिधि नमूना पाठें गी श्रेणी लेबल मैपिंग करने आह् ला इक शब्दकोश बनाओ। हर इक आने आह् ले दस्तावेज आस्तै, श्रेणियें उप्पर पुनरावृत्ति करो, एनसीडी दी गणना करो, ते घट्ट शा घट्ट चुनो.

    💡 DID YOU KNOW?

    Mewayz replaces 8+ business tools in one platform

    CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

    Start Free →

    एजी न्यूज़ डाटासेट (चार-वर्ग समाचार वर्गीकरण) दे खिलाफ बेंचमार्क च, संपीड़न स्तर 3 पर Zstandard दा इस्तेमाल करने आह् ला एह् तरीका मोटे तौर पर 62-65% सटीकता हासल करदा ऐ — कोई प्रशिक्षण कदम नेईं, कोई मॉडल डाउनलोड नेईं, ते इक गै सीपीयू कोर पर लगभग 8,000 दस्तावेज प्रति सेकंड दी वर्गीकरण गति। संपीड़न स्तर गी 10 तगर बधाने कन्नै थ्रूपुट गी घट्ट करियै लगभग 2,500 दस्तावेजें प्रति सेकंड दी कीमत पर सटीकता गी लगभग 68% तगर पुजाया जंदा ऐ। एह् नंबर ठीक-ठीक ट्यून कीते गेदे ट्रांसफार्मर कन्नै मेल नेईं खंदे न, पर एह् प्रोटोटाइपिंग, डेटा लेबलिंग ट्रायज, जां माहौल आस्तै इक मजबूत आधार रेखा प्रदान करदे न जित्थें एमएल निर्भरताएं गी स्थापित करना अव्यावहारिक ऐ.

    एनसीडी दी तुलना परंपरागत एमएल वर्गीकरण कन्नै किस चाल्ली कीती जंदी ऐ?

    ईमानदार जवाब ऐ जे एनसीडी उच्च दांव उत्पादन प्रणाली च ट्रांसफार्मर आह् ले वर्गीकरणें दा प्रतिस्थापन नेईं ऐ। बीईआरटी जां जीपीटी आह् ले वर्गीकरण जनेह् माडल मानक बेंचमार्कें पर 94%+ सटीकता हासल करदे न। हालांकि, जेडस्टैंडर्ड कन्नै एनसीडी इक अनोखा आला कब्जा करदा ऐ। एह् कोल्ड-स्टार्ट परिदृश्यें च उत्कृष्टता हासल करदा ऐ जित्थै तुंदे कोल हर वर्ग च 50 शा मते लेबल कीते गेदे उदाहरण होंदे न — इक ऐसी स्थिति जित्थें ठीक-ठाक माडल बी संघर्ष करदे न। इसगी शून्य प्रशिक्षण समें दी लोड़ होंदी ऐ, कुसै बी भाशा जां एन्कोडिंग गी बिना कुसै संशोधन दे संभालदा ऐ, ते पूरी चाल्ली कन्नै लगातार मेमोरी कन्नै सीपीयू पर चलदा ऐ.

    आने आह् ली सामग्री दी बड्डी मात्रा दा प्रबंधन करने आह् ले कारोबारें लेई — समर्थन टिकट, सोशल मीडिया उल्लेख, उत्पाद समीक्षा — इक Zstandard एनसीडी वर्गीकारक इक पैह् ले पास राउटर दे रूप च कम्म करी सकदा ऐ जेह् ड़ा मते महंगे माडल नतीजें गी परिष्कृत करने थमां पैह् ले दस्तावेजें गी रियल टाइम च श्रेणीबद्ध करदा ऐ। एह् दो चरणें दी पाइपलाइन समग्र सटीकता गी बरकरार रखदे होई अनुमान लागत च काफी कमी करदी ऐ। पैमाने पर बरतूनी-जनरेटेड सामग्री गी संसाधित करने आह् ले प्लेटफार्में, जि’यां 138,000 शा मते उद्यमीएं आसेआ बरतेआ जाने आह् ला मेवेज़ दा 207-मॉड्यूल बिजनेस ओएस, संदेशें गी रूट करने, सामग्री गी टैग करने, ते बिना भारी बुनियादी ढांचे दे बरतूनी अनुभवें गी निजीकृत करने लेई हल्के वर्गीकरण दा फायदा लैंदे न।

    सीमाएं ते बेहतरीन अभ्यास केह् न ?

    संपीड़न-आधारत वर्गीकरण च ज्ञात सीमाएं न जिंदा तुसेंगी हिसाब देना चाहिदा ऐ. लघु पाठ (100 बाइटें थमां घट्ट) अविश्वसनीय एनसीडी स्कोर पैदा करदे न कीजे कंप्रेसर च सार्थक पैटर्न बनाने लेई पर्याप्त डेटा नेईं ऐ। तकनीक संदर्भ पाठें दी पसंद दे प्रति बी संवेदनशील ऐ — खराब चुने गेदे प्रतिनिधि सटीकता गी तेजी कन्नै घट्ट करदे न। ते कीजे एनसीडी संभावनावादी मॉडल दी बजाय दूरी दा मीट्रिक ऐ, इस करी एह् स्वाभाविक रूप कन्नै भरोसेमंद स्कोर पैदा नेईं करदा ऐ।

    इस पद्धति थमां मता फायदा हासल करने आस्तै: हर श्रेणी च घट्टोघट्ट 500 बाइटें दे संदर्भ पाठें दा इस्तेमाल करो, प्रति वर्ग मते सारे उदाहरणें गी जोड़ने दा प्रयोग करो (2-3 प्रतिनिधि दस्तावेजें गी इकट्ठा करियै बेहतर संपीड़न शब्दकोश पैदा करदे न), संपीड़न थमां पैह् ले पाठ आवरण ते सफेद स्थान गी सामान्य करो, ते अपनी गति-सटीकता मीठा स्पॉट गी तुप्पने आस्तै Zstandard संपीड़न स्तर 3, 6, ते 10 दे पार बेंचमार्क करो. छोटे-पाठ वर्गीकरण आस्तै, अपने डोमेन कॉर्पस पर इक Zstandard शब्दकोश गी पैह् ले थमां गै प्रशिक्षित करो — एह् इक गै कदम लघु दस्तावेजें पर 8-12 प्रतिशत अंकें दी सटीकता च सुधार करी सकदा ऐ.

    बार-बार पुच्छे जाने आह् ले सवाल

    क्या संपीड़न-आधारत वर्गीकरण भावना विश्लेषण आस्तै कम्म करदा ऐ ?

    ऐ कर सकदा ऐ, पर चेतावनी कन्नै। भावना विश्लेषण च संरचनात्मक रूप कन्नै समान पाठें दे अंदर सूक्ष्म तान दे अंतर दा पता लाने दी लोड़ होंदी ऐ। एनसीडी विषय वर्गीकरण लेई बेहतर कम्म करदी ऐ जित्थै बक्ख-बक्ख श्रेणियें च दस्तावेजें च बक्ख-बक्ख शब्दावली दा उपयोग होंदा ऐ। भावना आस्तै, सटीकता आमतौर पर 55-60% दे आसपास उतरदी ऐ — बेतरतीब थमां बेहतर, पर अपने आपै च उत्पादन-तैयार नेईं। एनसीडी सुविधाएं गी हल्के वजन आह् ले लॉजिस्टिक रिग्रेशन मॉडल कन्नै जोड़ने कन्नै नतीजें च काफी सुधार होंदा ऐ।

    क्या मैं 3.14 थमां पैह् ले पायथन संस्करणें च compression.zstd मॉड्यूल दा इस्तेमाल करी सकना ऐ?

    नंबर। compression.zstd मॉड्यूल पायथन 3.14 च नमां ऐ. पैह् ले संस्करणें आस्तै, PyPI थमां python-zstandard पैकेज गी इंस्टॉल करो, जेह् ड़ा समतुल्य compress() ते decompress() फ़ंक्शनें गी उपलब्ध करोआंदा ऐ. एनसीडी तर्क इक जेह् ड़ा गै रौंह् दा ऐ — सिर्फ आयात कथन बदलदा ऐ। इक बारी जेकर तुस 3.14 च अपग्रेड करदे ओ तां तुस त्रीयें पार्टी दी निर्भरता गी पूरी चाल्ली छोड़ी सकदे ओ.

    कोसाइन समानता कन्नै टीएफ-आईडीएफ दी तुलना च जेडस्टैंडर्ड एनसीडी किस चाल्ली प्रदर्शन करदा ऐ ?

    संतुलित डाटासेट कन्नै बहु-वर्ग विषय वर्गीकरण पर, टीएफ-आईडीएफ प्लस कोसाइन समानता आमतौर पर जेडस्टैंडर्ड एनसीडी दी 62-68% दी तुलना च 75-82% सटीकता हासल करदी ऐ। हालांकि, टीएफ-आईडीएफ गी फिट वेक्टराइजर, परिभाशित शब्दावली, ते भाशा-विशिष्ट स्टॉपवर्ड सूची दी लोड़ होंदी ऐ। Zstandard NCD गी इस प्रीप्रोसेसिंग च कोई बी लोड़ नेईं ऐ, बक्ख-बक्ख भाशाएं च कम्म करदा ऐ, ते शब्दावली दे आकार दी परवाह नेईं करदे होई लगातार समें च नमें दस्तावेजें गी वर्गीकृत करदा ऐ। तेज़ प्रोटोटाइपिंग जां बहुभाषी वातावरण आस्तै एनसीडी अक्सर इक कम्म करने आह् ली प्रणाली दा तेज़ रस्ता होंदा ऐ ।

    चाहे तुस स्वचालित सामग्री पाइपलाइन बनांदे ओ, ग्राहक संदेशें गी रूटिंग करदे ओ, जां अपने डिजिटल कारोबार आस्तै वर्गीकरण तर्क गी प्रोटोटाइप बनांदे ओ, पायथन 3.14 दा बिल्ट-इन Zstandard समर्थन संपीड़न-आधारत एनसीडी गी पैह् ले थमां बी मता सुलभ बनांदा ऐ. जेकर तुस अपनी कारोबारी सामग्री, उत्पाद, कोर्स, ते ग्राहक संपर्कें गी प्रबंधत करने आस्तै इक आल-इन-वन प्लेटफार्म दी तलाश च ओ, तां अज्ज गै मेवेज़ कन्नै निर्माण शुरू करो ते इनें तकनीकें गी अपने पूरे आपरेशन च कम्म करने च पाओ.

    च वर्गीकृत करदा ऐ

    Try Mewayz Free

    All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

    Start managing your business smarter today

    Join 30,000+ businesses. Free forever plan · No credit card required.

    Ready to put this into practice?

    Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

    Start Free Trial →

    Ready to take action?

    Start your free Mewayz trial today

    All-in-one business platform. No credit card required.

    Start Free →

    14-day free trial · No credit card · Cancel anytime