Hacker News

পাইথন 3.14 ৰ ZSTD মডিউলৰ সৈতে লিখনী শ্ৰেণীবিভাজন

পাইথন 3.14 ৰ ZSTD মডিউলৰ সৈতে লিখনী শ্ৰেণীবিভাজন পাঠ্যৰ এই বিস্তৃত বিশ্লেষণে ইয়াৰ মূল উপাদান আৰু বহল প্ৰভাৱৰ বিশদ পৰীক্ষা আগবঢ়ায়। গুৰুত্বৰ মূল ক্ষেত্ৰসমূহ আলোচনাৰ কেন্দ্ৰবিন্দু হৈছে: কোৰ মেকানিজম আৰু প্ৰ'...

1 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
এতিয়া মোৰ হাতত প্ৰয়োজনীয় সকলো প্ৰসংগ আছে। ব্লগ পোষ্টটো লিখিম।

পাইথন 3.14 ৰ ZSTD মডিউলৰ সৈতে লিখনী শ্ৰেণীবিভাজন

পাইথন 3.14 এ compression.zstd মডিউলক প্ৰামাণিক লাইব্ৰেৰীলৈ উন্মোচন কৰে, আৰু ই মেচিন লাৰ্নিং মডেল অবিহনে লিখনী শ্ৰেণীবিভাজনৰ বাবে এটা আচৰিত ধৰণে শক্তিশালী পদ্ধতি আনলক কৰে। এটা কম্প্ৰেছাৰে দুটা লিখনীক একেলগে কিমান ভালদৰে চেপিব পাৰে জুখি, আপুনি সিহতৰ সাদৃশ্য নিৰ্ণয় কৰিব পাৰে — এটা কৌশল যাক সাধাৰণীকৃত সংকোচন দূৰত্ব (NCD) বুলি কোৱা হয় — আৰু এতিয়া Zstandard এ ইয়াক উৎপাদন কাৰ্য্যভাৰৰ বাবে যথেষ্ট দ্ৰুত কৰি তোলে।

সংকোচন-ভিত্তিক লিখনী শ্ৰেণীবিভাজনে প্ৰকৃততে কেনেকৈ কাম কৰে?

সংকোচন-ভিত্তিক শ্ৰেণীবিভাজনৰ আঁৰৰ মূল ধাৰণাটো তথ্য তত্ত্বৰ পৰাই শিপাই আছে। যেতিয়া Zstandard ৰ দৰে এটা কম্প্ৰেছন এলগৰিদমে লিখনীৰ এটা ব্লকৰ সন্মুখীন হয়, ই আৰ্হিৰ এটা আভ্যন্তৰীণ অভিধান নিৰ্মাণ কৰে। যদি দুটা গ্ৰন্থৰ শব্দভাণ্ডাৰ, বাক্য গঠন আৰু গঠন একে হয়, তেন্তে সেইবোৰক একেলগে সংকোচন কৰিলে কেৱল ডাঙৰ লিখনীটো সংকোচন কৰাতকৈ অলপ ডাঙৰ ফলাফলহে পোৱা যায়। যদি সিহঁতৰ সম্পৰ্ক নাই, সংযুক্ত সংকোচিত আকাৰ দুয়োটা ব্যক্তিগত আকাৰৰ যোগফলৰ কাষ চাপে।

এই সম্পৰ্কটো স্বাভাৱিক সংকোচন দূৰত্ব সূত্ৰৰ দ্বাৰা ধৰা পৰে: NCD(x, y) = (C(xy) - min(C(x), C(y))) / max(C(x), C(y)), য'ত C(x) হৈছে x লিখনীৰ সংকোচিত আকাৰ, আৰু C(xy) হৈছে সংযুক্ত দুটা লিখনীৰ সংকোচিত আকাৰ। 0 ৰ ওচৰৰ NCD মানৰ অৰ্থ হ'ল লিখনীসমূহ অতি মিল, আনহাতে 1 ৰ ওচৰৰ মানৰ অৰ্থ হ'ল ইহঁতে প্ৰায় কোনো তথ্যমূলক বিষয়বস্তু ভাগ-বতৰা নকৰে।

এই কৌশলটোক উল্লেখযোগ্য কৰি তোলাটো হ'ল ইয়াৰ বাবে কোনো প্ৰশিক্ষণ তথ্য, কোনো টোকেনাইজেচন, কোনো এম্বেডিং, আৰু কোনো GPU ৰ প্ৰয়োজন নাই । কম্প্ৰেছাৰে নিজেই পাঠ্যৰ গঠনৰ শিকি লোৱা আৰ্হি হিচাপে কাম কৰে। "লো-ৰিচ'ৰ্চ টেক্সট ক্লাছিফিকেশন: এ পেৰামিটাৰ-ফ্ৰী ক্লাছিফিকেশন মেথড উইথ কম্প্ৰেছাৰ" (২০২৩)ৰ দৰে গৱেষণা পত্ৰত প্ৰকাশিত গৱেষণাই প্ৰমাণ কৰিছে যে gzip-ভিত্তিক এনচিডিয়ে কিছুমান বেঞ্চমাৰ্কত BERTক প্ৰতিদ্বন্দ্বিতা কৰিছিল, যাৰ ফলত এই পদ্ধতিৰ প্ৰতি নবীকৃত আগ্ৰহৰ সৃষ্টি হৈছিল।

পাইথন 3.14 ৰ Zstandard মডিউল NCD ৰ বাবে এটা গেম-চেঞ্জাৰ কিয়?

পাইথন ৩.১৪ৰ আগতে, Zstandard ব্যৱহাৰ কৰাৰ বাবে তৃতীয়-পক্ষ python-zstandard সৰঞ্জাম সংস্থাপন কৰাৰ প্ৰয়োজন আছিল । নতুন compression.zstd মডিউল, PEP 784 ৰ যোগেদি প্ৰৱৰ্তিত, CPython ৰ সৈতে পোনপটীয়াকৈ প্ৰেৰণ কৰা হয়। ইয়াৰ অৰ্থ হৈছে শূন্য নিৰ্ভৰশীলতা ওভাৰহেড আৰু এটা নিশ্চিত, সুস্থিৰ API Meta ৰ যুদ্ধ-পৰীক্ষিত libzstd দ্বাৰা সমৰ্থিত । বিশেষভাৱে শ্ৰেণীবিভাজন কাৰ্য্যসমূহৰ বাবে, Zstandard এ gzip বা bzip2:

তকৈ কেইবাটাও সুবিধা প্ৰদান কৰে
  • গতি: Zstandard এ তুলনামূলক অনুপাতত gzip তকৈ 3-5x দ্ৰুতভাৱে সংকোচন কৰে, যাৰ ফলত হাজাৰ হাজাৰ দস্তাবেজৰ ওপৰত বেচ শ্ৰেণীবিভাজন মিনিটৰ পৰিৱৰ্তে চেকেণ্ডত কাৰ্য্যকৰী হয়
  • টিউনেবল সংকোচন স্তৰসমূহ: স্তৰ 1 ৰ পৰা 22 লৈকে আপোনাক অনুপাতৰ বাবে গতি ব্যৱসায় কৰিবলৈ দিয়ে, আপোনাক থ্ৰুপুটৰ প্ৰয়োজনীয়তাৰ বিপৰীতে NCD নিখুঁততাক মানাংকন কৰাৰ অনুমতি দিয়ে
  • অভিধান সমৰ্থন: পূৰ্ব-প্ৰশিক্ষিত Zstandard অভিধানসমূহে সৰু লিখনীসমূহৰ সংকোচন নাটকীয়ভাৱে উন্নত কৰিব পাৰে (4KB ৰ তলত), যিটো হৈছে হুবহু দস্তাবেজ আকাৰ পৰিসীমা য'ত NCD সঠিকতাই আটাইতকৈ গুৰুত্বপূৰ্ণ
  • ষ্ট্ৰিমিং API: মডিউলে বৃদ্ধিশীল সংকোচন সমৰ্থন কৰে, শ্ৰেণীবিভাজন পাইপলাইন সামৰ্থবান কৰে যি লিখনীসমূহ মেমৰিলৈ লোড নকৰাকৈ প্ৰক্ৰিয়া কৰে
  • মানক লাইব্ৰেৰী স্থিৰতা: কোনো সংস্কৰণৰ সংঘাত নাই, কোনো যোগান শৃংখলৰ বিপদ নাই — compression import zstd ৰ পৰা প্ৰতিটো পাইথন 3.14+ সংস্থাপনত কাম কৰে
<ব্লককোট>

মূল অন্তৰ্দৃষ্টি: সংকোচন-ভিত্তিক শ্ৰেণীবিভাজনে সৰ্বোত্তম কাম কৰে যেতিয়া আপুনি এটা দ্ৰুত, নিৰ্ভৰশীলতা-মুক্ত ভিত্তিৰেখাৰ প্ৰয়োজন হয় যি বহুভাষিক লিখনী স্থানীয়ভাৱে নিয়ন্ত্ৰণ কৰে। যিহেতু কম্প্ৰেছাৰসমূহে ভাষা-নিৰ্দিষ্ট টোকেনৰ পৰিৱৰ্তে কেঁচা বাইটত কাম কৰে, ইহঁতে চীনা, আৰবী, বা মিশ্ৰ-ভাষাৰ দস্তাবেজসমূহক ইংৰাজীৰ দৰেই ফলপ্ৰসূভাৱে শ্ৰেণীভুক্ত কৰে — কোনো ভাষা আৰ্হিৰ প্ৰয়োজন নাই।

ৰ দ্বাৰা

এটা ব্যৱহাৰিক প্ৰণয়ন কেনেকুৱা দেখা যায়?

পাইথন 3.14 ত এটা নূন্যতম NCD শ্ৰেণীবিভাজক 30 শাৰীৰ তলত ফিট হয়। আপুনি প্ৰতিটো প্ৰসংগ লিখনী (প্ৰতি শ্ৰেণীত এটা) এনকোড কৰে, তাৰ পিছত প্ৰতিটো নতুন দস্তাবেজৰ বাবে, প্ৰতিটো প্ৰসংগৰ বিপৰীতে NCD গণনা কৰক আৰু সৰ্বনিম্ন দূৰত্বৰ সৈতে শ্ৰেণী নিযুক্ত কৰক। ইয়াত মূল যুক্তিটো দিয়া হ’ল:

প্ৰথমে, সংকোচন আমদানি zstd ৰ পৰা ৰ সৈতে মডিউল আমদানি কৰক । এটা ফাংচন সংজ্ঞায়িত কৰক যি দুটা বাইট ষ্ট্ৰিং গ্ৰহণ কৰে, প্ৰতিটো পৃথকে পৃথকে সংকোচন কৰে, সিহতৰ সংযোগ সংকোচন কৰে, আৰু NCD স্ক'ৰ ঘূৰাই দিয়ে। তাৰ পিছত প্ৰতিনিধিত্বমূলক নমুনা লিখনীলৈ শ্ৰেণী লেবেলসমূহ মেপিং কৰা এটা অভিধান নিৰ্মাণ কৰক। প্ৰতিটো অহা দস্তাবেজৰ বাবে, শ্ৰেণীসমূহৰ ওপৰত পুনৰাবৃত্তি কৰক, NCD গণনা কৰক, আৰু নূন্যতম নিৰ্ব্বাচন কৰক।

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

AG News ডাটাছেটৰ বিপৰীতে বেঞ্চমাৰ্কসমূহত (চাৰি-শ্ৰেণীৰ বাতৰি শ্ৰেণীবিভাজন), সংকোচন স্তৰ ৩ ত Zstandard ব্যৱহাৰ কৰা এই পদ্ধতিয়ে প্ৰায় ৬২-৬৫% সঠিকতা লাভ কৰে — কোনো প্ৰশিক্ষণ পদক্ষেপ নাই, কোনো মডেল ডাউনলোড নাই, আৰু এটা CPU কোৰত প্ৰতি ছেকেণ্ডত প্ৰায় ৮,০০০ দস্তাবেজৰ শ্ৰেণীবিভাজনৰ গতি। সংকোচন স্তৰ ১০ লৈ বৃদ্ধি কৰিলে প্ৰতি ছেকেণ্ডত প্ৰায় ২,৫০০ নথিপত্ৰলৈ থ্ৰুপুট হ্ৰাস কৰাৰ খৰচত সঠিকতাক প্ৰায় ৬৮% লৈ ঠেলি দিয়া হয়। এই সংখ্যাসমূহ ফাইন-টিউন কৰা ট্ৰেন্সফৰ্মাৰৰ সৈতে মিল নাথাকে, কিন্তু ইহঁতে প্ৰ'ট'টাইপিং, ডাটা লেবেলিং ট্ৰাইজেজ, বা পৰিৱেশসমূহৰ বাবে এটা শক্তিশালী ভিত্তিৰেখা প্ৰদান কৰে য'ত ML নিৰ্ভৰশীলতাসমূহ সংস্থাপন কৰাটো অবাস্তৱিক।

এনচিডিক পৰম্পৰাগত এমএল শ্ৰেণীবিভাজনৰ সৈতে কেনেকৈ তুলনা কৰা হয়?

সৎ উত্তৰটো হ’ল যে উচ্চ ষ্টেক উৎপাদন ব্যৱস্থাত ট্ৰেন্সফৰ্মাৰ ভিত্তিক শ্ৰেণীবিভাজকৰ সলনি এনচিডি নহয়। BERT বা GPT-ভিত্তিক শ্ৰেণীবিভাজকৰ দৰে মডেলে প্ৰামাণিক বেঞ্চমাৰ্কত 94%+ সঠিকতা লাভ কৰে। কিন্তু জেডষ্টেণ্ডাৰ্ডৰ সৈতে এনচিডিয়ে এক অনন্য স্থান দখল কৰিছে। ই ঠাণ্ডা-আৰম্ভণি পৰিস্থিতিত উত্তম য'ত আপোনাৰ প্ৰতিটো শ্ৰেণীত ৫০ টাতকৈ কম লেবেলযুক্ত উদাহৰণ থাকে — এটা পৰিস্থিতি য'ত আনকি সূক্ষ্ম-টিউন কৰা মডেলসমূহেও সংগ্ৰাম কৰে। ইয়াৰ বাবে শূন্য প্ৰশিক্ষণ সময়ৰ প্ৰয়োজন, যিকোনো ভাষা বা এনকোডিং পৰিবৰ্তন নকৰাকৈ নিয়ন্ত্ৰণ কৰে, আৰু সম্পূৰ্ণৰূপে CPU ত স্থিৰ স্মৃতিশক্তিৰ সৈতে চলে।

বৃহৎ পৰিমাণৰ অহা বিষয়বস্তু পৰিচালনা কৰা ব্যৱসায়সমূহৰ বাবে — সমৰ্থন টিকট, ছ'চিয়েল মিডিয়াৰ উল্লেখ, পণ্য পৰ্যালোচনা — এটা Zstandard NCD শ্ৰেণীবিভাজকে এটা প্ৰথম-পাছ ৰাউটাৰ হিচাপে কাম কৰিব পাৰে যিয়ে অধিক ব্যয়বহুল মডেলে ফলাফল পৰিশোধনৰ আগতে নথিপত্ৰসমূহক বাস্তৱ সময়ত শ্ৰেণীভুক্ত কৰে। এই দুটা পৰ্যায়ৰ পাইপলাইনে সামগ্ৰিক সঠিকতা বজাই ৰাখি অনুমানৰ খৰচ বহু পৰিমাণে হ্ৰাস কৰে। ব্যৱহাৰকাৰী-উৎপন্ন বিষয়বস্তু স্কেলত প্ৰক্ৰিয়াকৰণ কৰা প্লেটফৰ্মসমূহ, যেনে ১৩৮,০০০ তকৈ অধিক উদ্যোগীয়ে ব্যৱহাৰ কৰা Mewayz ৰ ২০৭-মডিউল ব্যৱসায়িক অপাৰেটিং ছিষ্টেম, বাৰ্তাসমূহ ৰুট কৰিবলৈ, বিষয়বস্তু টেগ কৰিবলৈ, আৰু গধুৰ আন্তঃগাঁথনি অবিহনে ব্যৱহাৰকাৰী অভিজ্ঞতা ব্যক্তিগতকৰণ কৰিবলৈ লঘু শ্ৰেণীবিভাজনৰ পৰা লাভৱান হয়।

সীমাবদ্ধতা আৰু উত্তম পদ্ধতিসমূহ কি?

সংকোচন-ভিত্তিক শ্ৰেণীবিভাজনৰ জনা সীমাবদ্ধতা আছে যাৰ বাবে আপুনি হিচাপ দিব লাগে। চুটি লিখনী (১০০ বাইটৰ তলত) অবিশ্বাস্য NCD স্ক'ৰ উৎপন্ন কৰে কাৰণ কম্প্ৰেছাৰত অৰ্থপূৰ্ণ আৰ্হি নিৰ্মাণ কৰিবলৈ পৰ্যাপ্ত তথ্য নাই। এই কৌশলটো ৰেফাৰেন্স গ্ৰন্থৰ বাছনিৰ প্ৰতিও সংবেদনশীল — বেয়াকৈ নিৰ্বাচিত প্ৰতিনিধিয়ে সঠিকতাক তীব্ৰভাৱে হ্ৰাস কৰে। আৰু যিহেতু এনচিডি সম্ভাৱনাবাদী আৰ্হি নহয়, দূৰত্বৰ মেট্ৰিক, ই স্বাভাৱিকতে আস্থাৰ স্ক’ৰ উৎপন্ন নকৰে।

এই পদ্ধতিৰ পৰা সৰ্বাধিক লাভ কৰিবলৈ: প্ৰতি শ্ৰেণীত অন্ততঃ 500 বাইটৰ প্ৰসংগ লিখনী ব্যৱহাৰ কৰক, প্ৰতিটো শ্ৰেণীত একাধিক উদাহৰণ সংযুক্ত কৰাৰ সৈতে পৰীক্ষা কৰক (2-3 প্ৰতিনিধিত্বমূলক দস্তাবেজসমূহে একেলগে সংযুক্ত কৰিলে উন্নত সংকোচন অভিধানসমূহ পোৱা যায়), সংকোচনৰ পূৰ্বে লিখনী আৱৰণ আৰু বগা স্থান স্বাভাৱিক কৰক, আৰু আপোনাৰ গতি-সঠিকতা মিঠা স্পট বিচাৰিবলৈ Zstandard সংকোচন স্তৰ 3, 6, আৰু 10 ৰ মাজেৰে বেঞ্চমাৰ্ক কৰক। সৰু-পাঠ্য শ্ৰেণীবিভাজনৰ বাবে, আপোনাৰ ডমেইন কৰ্পাছত এটা Zstandard অভিধান পূৰ্ব-প্ৰশিক্ষণ কৰক — এই একক পদক্ষেপে চুটি দস্তাবেজসমূহত সঠিকতা ৮-১২ শতাংশ পইণ্ট উন্নত কৰিব পাৰে।

সঘনাই সোধা প্ৰশ্ন

সংকোচন-ভিত্তিক শ্ৰেণীবিভাজনে আৱেগ বিশ্লেষণৰ বাবে কাম কৰেনে?

ই কৰিব পাৰে, কিন্তু সতৰ্কবাণীৰ সৈতে। আৱেগ বিশ্লেষণৰ বাবে গাঁথনিগতভাৱে একেধৰণৰ গ্ৰন্থৰ ভিতৰত সূক্ষ্ম টোনাল পাৰ্থক্য ধৰা পেলোৱাৰ প্ৰয়োজন। এনচিডিয়ে বিষয় শ্ৰেণীবিভাজনৰ বাবে ভাল কাম কৰে য’ত বিভিন্ন শ্ৰেণীৰ নথিপত্ৰসমূহে সুকীয়া শব্দভাণ্ডাৰ ব্যৱহাৰ কৰে। আৱেগৰ বাবে, সঠিকতা সাধাৰণতে ৫৫-৬০% ৰ ওচৰত অৱতৰণ কৰে — যাদৃচ্ছিকতকৈ ভাল, কিন্তু নিজাববীয়াকৈ উৎপাদন-প্ৰস্তুত নহয়। এনচিডি বৈশিষ্ট্যসমূহক এটা লঘু লজিষ্টিক ৰিগ্ৰেছন মডেলৰ সৈতে সংযুক্ত কৰিলে ফলাফল যথেষ্ট উন্নত হয়।

মই 3.14 ৰ আগৰ পাইথন সংস্কৰণসমূহত compression.zstd মডিউল ব্যৱহাৰ কৰিব পাৰোনে?

নং। compression.zstd মডিউল পাইথন 3.14 ত নতুন । পূৰ্বৰ সংস্কৰণসমূহৰ বাবে, PyPI ৰ পৰা python-zstandard সৰঞ্জাম সংস্থাপন কৰক, যি সমতুল্য compress() আৰু decompress() ফলনসমূহ প্ৰদান কৰে। এনচিডি লজিক একেই থাকে — কেৱল আমদানি বিবৃতি সলনি হয়। আপুনি এবাৰ 3.14 লৈ উন্নয়ন কৰিলে, আপুনি তৃতীয়-পক্ষৰ নিৰ্ভৰশীলতা সম্পূৰ্ণৰূপে বাদ দিব পাৰিব।

কোচাইন সাদৃশ্য থকা TF-IDF ৰ তুলনাত Zstandard NCD এ কেনেদৰে কাম কৰে?

সুষম ডাটাছেটৰ সৈতে বহু-শ্ৰেণী বিষয় শ্ৰেণীবিভাজনত, টিএফ-আইডিএফ প্লাছ ক'চাইন সাদৃশ্যই সাধাৰণতে জেডষ্টেণ্ডাৰ্ড এনচিডিৰ ৬২-৬৮%ৰ তুলনাত ৭৫-৮২% সঠিকতা লাভ কৰে। কিন্তু TF-IDF ৰ বাবে এটা ফিট ভেক্টৰাইজাৰ, এটা সংজ্ঞায়িত শব্দভাণ্ডাৰ, আৰু ভাষা-নিৰ্দিষ্ট ষ্টপৱৰ্ড তালিকাৰ প্ৰয়োজন। Zstandard NCD ৰ এই প্ৰিপ্ৰচেছিঙৰ কোনো প্ৰয়োজন নাই, ই বাকচৰ বাহিৰত ভাষাসমূহৰ মাজেৰে কাম কৰে, আৰু শব্দভাণ্ডাৰৰ আকাৰ নিৰ্বিশেষে নতুন দস্তাবেজসমূহক স্থিৰ সময়ত শ্ৰেণীভুক্ত কৰে। দ্ৰুত প্ৰ'ট'টাইপিং বা বহুভাষিক পৰিৱেশৰ বাবে, NCD প্ৰায়ে এটা কাৰ্য্যকৰী ব্যৱস্থাপ্ৰণালীৰ দ্ৰুত পথ।

আপুনি স্বয়ংক্ৰিয় বিষয়বস্তু পাইপলাইন নিৰ্মাণ কৰক, গ্ৰাহক বাৰ্তাসমূহ ৰাউটিং কৰক, বা আপোনাৰ ডিজিটেল ব্যৱসায়ৰ বাবে শ্ৰেণীবিভাজন লজিক প্ৰ'ট'টাইপিং কৰক, পাইথন 3.14 ৰ অন্তৰ্নিৰ্মিত Zstandard সমৰ্থনে সংকোচন-ভিত্তিয় NCD আগতকৈ অধিক অভিগম্য কৰে। যদি আপুনি আপোনাৰ ব্যৱসায়িক বিষয়বস্তু, পণ্য, পাঠ্যক্ৰম, আৰু গ্ৰাহকৰ পাৰস্পৰিক ক্ৰিয়া-কলাপ পৰিচালনা কৰিবলৈ এটা অল-ইন-ৱান প্লেটফৰ্ম বিচাৰিছে, আজিয়েই Mewayz ৰ সৈতে নিৰ্মাণ আৰম্ভ কৰক আৰু এই কৌশলসমূহ আপোনাৰ সমগ্ৰ কাৰ্য্যকলাপত কামত লগাওক।

ত শ্ৰেণীভুক্ত কৰে

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime