Hacker News

ການຈັດປະເພດຂໍ້ຄວາມດ້ວຍໂມດູນ ZSTD ຂອງ Python 3.14

ການຈັດປະເພດຂໍ້ຄວາມດ້ວຍໂມດູນ ZSTD ຂອງ Python 3.14 ການວິເຄາະຂໍ້ຄວາມທີ່ສົມບູນແບບນີ້ສະຫນອງການກວດສອບລາຍລະອຽດຂອງອົງປະກອບຫຼັກຂອງມັນແລະຜົນສະທ້ອນທີ່ກວ້າງຂວາງ. ເຂດຈຸດສຸມ ການ​ສົນ​ທະ​ນາ​ໄດ້​ສຸມ​ໃສ່​: ກົນ​ໄກ​ຫຼັກ​ຖານ​ແລະ​ການ​ສະ...

2 min read Via maxhalford.github.io

Mewayz Team

Editorial Team

Hacker News
ຕອນນີ້ຂ້ອຍມີສະພາບການທັງຫມົດທີ່ຂ້ອຍຕ້ອງການ. ໃຫ້ຂ້ອຍຂຽນບົດຄວາມ blog.

ການຈັດປະເພດຂໍ້ຄວາມດ້ວຍໂມດູນ ZSTD ຂອງ Python 3.14

Python 3.14 ແນະນຳໂມດູນ compression.zstd ໃຫ້ກັບຫ້ອງສະໝຸດມາດຕະຖານ, ແລະມັນປົດລັອກວິທີການຈັດປະເພດຂໍ້ຄວາມທີ່ມີພະລັງຢ່າງໜ້າປະຫລາດໃຈ ໂດຍບໍ່ມີຮູບແບບການຮຽນຮູ້ຂອງເຄື່ອງຈັກ. ໂດຍການວັດແທກວ່າເຄື່ອງບີບອັດສາມາດບີບສອງບົດເລື່ອງເຂົ້າກັນໄດ້ດີເທົ່າໃດ, ທ່ານສາມາດກຳນົດຄວາມຄ້າຍຄືກັນຂອງພວກມັນໄດ້ — ເຕັກນິກທີ່ເອີ້ນວ່າ Normalized Compression Distance (NCD) — ແລະຕອນນີ້ Zstandard ເຮັດໃຫ້ມັນໄວພໍສຳລັບວຽກການຜະລິດ.

ການ​ຈັດ​ປະ​ເພດ​ຂໍ້​ຄວາມ​ທີ່​ອີງ​ໃສ່​ການ​ບີບ​ອັດ​ເຮັດ​ໄດ້​ແນວ​ໃດ?

ແນວຄວາມຄິດຫຼັກທີ່ຢູ່ເບື້ອງຫຼັງການຈັດປະເພດການບີບອັດແມ່ນຮາກຖານຢູ່ໃນທິດສະດີຂໍ້ມູນຂ່າວສານ. ເມື່ອລະບົບການບີບອັດເຊັ່ນ Zstandard ພົບກັບຕົວໜັງສື, ມັນຈະສ້າງວັດຈະນານຸກົມພາຍໃນຂອງຮູບແບບ. ຖ້າສອງບົດເລື່ອງມີຄໍາສັບ, syntax, ແລະໂຄງສ້າງທີ່ຄ້າຍຄືກັນ, ການບີບອັດພວກມັນເຂົ້າກັນຈະສ້າງຜົນໄດ້ຮັບທີ່ໃຫຍ່ກວ່າການບີບອັດຂໍ້ຄວາມທີ່ໃຫຍ່ກວ່າພຽງແຕ່ເລັກນ້ອຍ. ຖ້າພວກມັນບໍ່ກ່ຽວຂ້ອງກັນ, ຂະໜາດທີ່ບີບອັດເຂົ້າກັນຈະເຂົ້າໃກ້ຜົນບວກຂອງທັງສອງຂະໜາດ.

ຄວາມສຳພັນນີ້ຖືກບັນທຶກໂດຍສູດການບີບອັດແບບປົກກະຕິ: NCD(x, y) = (C(xy) - min(C(x), C(y))) / max(C(x), C(y))), ເຊິ່ງ C(x) ແມ່ນຂະໜາດບີບອັດຂອງຂໍ້ຄວາມ x, ແລະ C(xy) ແມ່ນຂະໜາດບີບອັດຂອງສອງຂໍ້ຄວາມ. ຄ່າ NCD ຢູ່ໃກ້ 0 ຫມາຍຄວາມວ່າບົດເລື່ອງມີຄວາມຄ້າຍຄືກັນສູງ, ໃນຂະນະທີ່ຄ່າຢູ່ໃກ້ກັບ 1 ຫມາຍຄວາມວ່າພວກເຂົາແບ່ງປັນເກືອບບໍ່ມີເນື້ອຫາຂໍ້ມູນ.

ສິ່ງ​ທີ່​ເຮັດ​ໃຫ້​ເຕັກ​ນິກ​ນີ້​ເປັນ​ໜ້າ​ສັງ​ເກດ​ແມ່ນ​ວ່າ​ມັນ​ບໍ່​ຕ້ອງ​ການ​ຂໍ້​ມູນ​ການ​ຝຶກ​ອົບ​ຮົມ, ບໍ່​ມີ tokenization, ບໍ່​ມີ​ການ​ຝັງ, ແລະ​ບໍ່​ມີ GPU. ເຄື່ອງອັດຕົວມັນເອງເຮັດຫນ້າທີ່ເປັນຕົວແບບທີ່ໄດ້ຮຽນຮູ້ຂອງໂຄງສ້າງຂອງຂໍ້ຄວາມ. ການຄົ້ນຄວ້າທີ່ຕີພິມໃນເອກະສານເຊັ່ນ: "ການຈັດປະເພດຂໍ້ຄວາມຊັບພະຍາກອນຕ່ໍາ: ວິທີການຈັດປະເພດທີ່ບໍ່ມີພາລາມິເຕີກັບເຄື່ອງບີບອັດ" (2023) ສະແດງໃຫ້ເຫັນວ່າ NCD ທີ່ອີງໃສ່ gzip ໄດ້ແຂ່ງຂັນກັບ BERT ໃນບາງດັດຊະນີ, ເຮັດໃຫ້ເກີດຄວາມສົນໃຈຕໍ່ວິທີການດັ່ງກ່າວ.

ເປັນຫຍັງໂມດູນ Zstandard ຂອງ Python 3.14 ຈຶ່ງເປັນຕົວປ່ຽນເກມສຳລັບ NCD?

ກ່ອນ Python 3.14, ການໃຊ້ Zstandard ຕ້ອງຕິດຕັ້ງແພັກເກັດ python-zstandard ພາກສ່ວນທີສາມ. ໂມດູນ compression.zstd ໃໝ່, ນຳສະເໜີຜ່ານ PEP 784, ສົ່ງໂດຍກົງກັບ CPython. ນີ້ຫມາຍຄວາມວ່າສູນການເພິ່ງພາອາໄສ overhead ແລະ API ທີ່ຮັບປະກັນ, ສະຖຽນລະພາບທີ່ສະຫນັບສະຫນູນໂດຍ Meta's battle-tested libzstd. ສໍາລັບວຽກງານການຈັດປະເພດໂດຍສະເພາະ, Zstandard ສະເຫນີຂໍ້ໄດ້ປຽບຫຼາຍຢ່າງຫຼາຍກວ່າ gzip ຫຼື bzip2:

  • ຄວາມໄວ: Zstandard ບີບອັດໄວກວ່າ gzip 3-5x ໃນອັດຕາສ່ວນທີ່ສົມທຽບກັນ, ເຮັດໃຫ້ການຈັດປະເພດ batch ຫຼາຍກວ່າຫຼາຍພັນເອກະສານສາມາດໃຊ້ໄດ້ໃນວິນາທີແທນທີ່ຈະເປັນນາທີ
  • ລະດັບການບີບອັດທີ່ສາມາດປັບໄດ້: ລະດັບ 1 ຫາ 22 ເຮັດໃຫ້ທ່ານມີຄວາມໄວການຄ້າສໍາລັບອັດຕາສ່ວນ, ຊ່ວຍໃຫ້ທ່ານສາມາດປັບລະດັບຄວາມແມ່ນຍໍາຂອງ NCD ຕໍ່ກັບຄວາມຕ້ອງການຂອງການສົ່ງຜ່ານ
  • ການຮອງຮັບວັດຈະນານຸກົມ: ວັດຈະນານຸກົມ Zstandard ທີ່ໄດ້ຮັບການຝຶກອົບຮົມມາກ່ອນສາມາດປັບປຸງການບີບອັດຂໍ້ຄວາມຂະໜາດນ້ອຍໄດ້ຢ່າງຫຼວງຫຼາຍ (ຕ່ຳກວ່າ 4KB), ເຊິ່ງເປັນຂອບເຂດຂະໜາດເອກະສານທີ່ຄວາມຖືກຕ້ອງຂອງ NCD ສຳຄັນທີ່ສຸດ
  • Streaming API: ໂມດູນສະຫນັບສະຫນູນການບີບອັດທີ່ເພີ່ມຂຶ້ນ, ເຮັດໃຫ້ທໍ່ການຈັດປະເພດທີ່ປະມວນຜົນຂໍ້ຄວາມໂດຍບໍ່ມີການໂຫລດ corpora ທັງຫມົດເຂົ້າໄປໃນຫນ່ວຍຄວາມຈໍາ
  • ຄວາມໝັ້ນຄົງຂອງຫ້ອງສະໝຸດມາດຕະຖານ: ບໍ່ມີເວີຊັນຂັດກັນ, ບໍ່ມີຄວາມສ່ຽງຕໍ່ລະບົບຕ່ອງໂສ້ການສະໜອງ — ຈາກການບີບອັດການນຳເຂົ້າ zstd ເຮັດວຽກໃນທຸກໆການຕິດຕັ້ງ Python 3.14+

ຄວາມເຂົ້າໃຈຫຼັກ: ການຈັດປະເພດທີ່ອີງໃສ່ການບີບອັດໃຊ້ໄດ້ດີທີ່ສຸດເມື່ອທ່ານຕ້ອງການເສັ້ນພື້ນຖານທີ່ໄວ, ບໍ່ມີການເພິ່ງພາອາໄສທີ່ຈັດການກັບຂໍ້ຄວາມຫຼາຍພາສາພື້ນເມືອງ. ເນື່ອງຈາກເຄື່ອງບີບອັດເຮັດວຽກດ້ວຍໄບຕ໌ດິບແທນທີ່ຈະເປັນ tokens ສະເພາະພາສາ, ພວກມັນຈັດປະເພດເອກະສານພາສາຈີນ, ອາຣັບ ຫຼື ພາສາປະສົມຢ່າງມີປະສິດທິພາບຄືກັບພາສາອັງກິດ — ບໍ່ຈຳເປັນຕ້ອງມີຮູບແບບພາສາ.

ການຈັດຕັ້ງປະຕິບັດຕົວຈິງມີລັກສະນະແນວໃດ?

ຕົວຈັດປະເພດ NCD ໜ້ອຍສຸດໃນ Python 3.14 ພໍດີຢູ່ໃນ 30 ແຖວ. ທ່ານເຂົ້າລະຫັດແຕ່ລະຂໍ້ຄວາມອ້າງອີງ (ຫນຶ່ງຕໍ່ປະເພດ), ຫຼັງຈາກນັ້ນສໍາລັບແຕ່ລະເອກະສານໃຫມ່, ຄິດໄລ່ NCD ຕໍ່ກັບທຸກໆເອກະສານອ້າງອີງແລະກໍານົດປະເພດທີ່ມີໄລຍະຫ່າງຕ່ໍາສຸດ. ນີ້ແມ່ນເຫດຜົນຫຼັກ:

ທຳອິດ, ນຳເຂົ້າໂມດູນດ້ວຍ ຈາກ compression import zstd. ກໍານົດຟັງຊັນທີ່ຍອມຮັບສອງສະຕຣິງ byte, compresses ແຕ່ລະຄົນ, compresses concatenation ຂອງເຂົາເຈົ້າ, ແລະສົ່ງຄືນຄະແນນ NCD. ຈາກນັ້ນສ້າງປ້າຍກຳກັບໝວດໝູ່ແຜນທີ່ວັດຈະນານຸກົມໃຫ້ກັບບົດເລື່ອງຕົວຢ່າງຕົວແທນ. ສຳລັບແຕ່ລະເອກະສານທີ່ເຂົ້າມາ, ໃຫ້ເຮັດຊ້ຳຕາມໝວດໝູ່, ຄິດໄລ່ NCD, ແລະເລືອກຕໍາ່ສຸດທີ່.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

ໃນ​ຕົວ​ເລກ​ທຽບ​ໃສ່​ຊຸດ​ຂໍ້​ມູນ AG News (ການ​ຈັດ​ປະ​ເພດ​ຂ່າວ​ສີ່​ປະ​ເພດ), ວິ​ທີ​ການ​ນໍາ​ໃຊ້ Zstandard ໃນ​ລະ​ດັບ​ການ​ບີບ​ອັດ 3 ບັນ​ລຸ​ຄວາມ​ຖືກ​ຕ້ອງ​ປະ​ມານ 62-65% — ບໍ່​ມີ​ຂັ້ນ​ຕອນ​ການ​ຝຶກ​ອົບ​ຮົມ, ບໍ່​ມີ​ການ​ດາວ​ໂຫຼດ​ຕົວ​ແບບ, ແລະ​ຄວາມ​ໄວ​ການ​ຈັດ​ປະ​ເພດ​ຂອງ​ປະ​ມານ 8,000 ເອ​ກະ​ສານ​ຕໍ່​ວິ​ນາ​ທີ​ໃນ​ຫຼັກ CPU ດຽວ. ການເພີ່ມລະດັບການບີບອັດເປັນ 10 ຊຸກຍູ້ຄວາມຖືກຕ້ອງປະມານ 68% ດ້ວຍຄ່າໃຊ້ຈ່າຍໃນການຫຼຸດຜ່ອນການສົ່ງຕໍ່ເຖິງປະມານ 2,500 ເອກະສານຕໍ່ວິນາທີ. ຕົວເລກເຫຼົ່ານີ້ບໍ່ກົງກັບໝໍ້ແປງທີ່ປັບລະອຽດ, ແຕ່ພວກມັນໃຫ້ຂໍ້ມູນພື້ນຖານທີ່ໜັກແໜ້ນສຳລັບການສ້າງຕົ້ນແບບ, ການຕິດສະຫຼາກຂໍ້ມູນ ຫຼື ສະພາບແວດລ້ອມທີ່ການຕິດຕັ້ງການຂຶ້ນກັບ ML ແມ່ນໃຊ້ບໍ່ໄດ້ຜົນ.

NCD ປຽບທຽບກັບການຈັດປະເພດ ML ແບບດັ້ງເດີມແນວໃດ?

ຄຳຕອບທີ່ຊື່ສັດແມ່ນວ່າ NCD ບໍ່ແມ່ນການທົດແທນຕົວຈັດປະເພດທີ່ອີງໃສ່ເຄື່ອງຫັນປ່ຽນໃນລະບົບການຜະລິດທີ່ມີສະເຕກສູງ. ຕົວແບບເຊັ່ນ BERT ຫຼືຕົວຈັດປະເພດທີ່ອີງໃສ່ GPT ບັນລຸຄວາມຖືກຕ້ອງ 94%+ ໃນມາດຕະຖານມາດຕະຖານ. ຢ່າງໃດກໍຕາມ, NCD ກັບ Zstandard ຄອບຄອງ niche ເປັນເອກະລັກ. ມັນດີເລີດໃນສະຖານະການເລີ່ມຕົ້ນເຢັນທີ່ເຈົ້າມີຕົວຢ່າງທີ່ຕິດສະຫຼາກໜ້ອຍກວ່າ 50 ຕົວຕໍ່ຫ້ອງຮຽນ — ສະຖານະການທີ່ແມ້ແຕ່ຕົວແບບທີ່ປັບລະອຽດດີຕໍ່ສູ້. ມັນ​ຕ້ອງ​ການ​ທີ່​ໃຊ້​ເວ​ລາ​ການ​ຝຶກ​ອົບ​ຮົມ​ບໍ່​ມີ​, ຈັດ​ການ​ພາ​ສາ​ໃດ​ຫນຶ່ງ​ຫຼື​ການ​ເຂົ້າ​ລະ​ຫັດ​ໂດຍ​ບໍ່​ມີ​ການ​ດັດ​ແກ້​, ແລະ​ແລ່ນ​ທັງ​ຫມົດ​ໃນ CPU ທີ່​ມີ​ຄວາມ​ຈໍາ​ຄົງ​ທີ່​.

ສຳລັບທຸລະກິດທີ່ຈັດການເນື້ອຫາຂາເຂົ້າຂະຫນາດໃຫຍ່ — ປີ້ສະຫນັບສະຫນູນ, ການກ່າວເຖິງສື່ມວນຊົນສັງຄົມ, ການທົບທວນຄືນຜະລິດຕະພັນ — ເຄື່ອງຈັດປະເພດ Zstandard NCD ສາມາດຮັບໃຊ້ເປັນ router ທໍາອິດທີ່ຈັດປະເພດເອກະສານໃນເວລາຈິງກ່ອນທີ່ແບບຈໍາລອງລາຄາແພງກວ່າຈະປັບປຸງຜົນໄດ້ຮັບ. ທໍ່ສອງຂັ້ນຕອນນີ້ຫຼຸດຜ່ອນຄ່າໃຊ້ຈ່າຍ inference ຢ່າງຫຼວງຫຼາຍໃນຂະນະທີ່ຮັກສາຄວາມຖືກຕ້ອງໂດຍລວມ. ເວທີການປະມວນຜົນເນື້ອຫາທີ່ສ້າງໂດຍຜູ້ໃຊ້ໃນລະດັບ, ເຊັ່ນ: Mewayz's 207-module business OS ທີ່ໃຊ້ໂດຍຜູ້ປະກອບການຫຼາຍກວ່າ 138,000 ຄົນ, ໄດ້ຮັບຜົນປະໂຫຍດຈາກການຈັດປະເພດທີ່ມີນ້ໍາຫນັກເບົາຕໍ່ກັບຂໍ້ຄວາມເສັ້ນທາງ, ເນື້ອຫາແທັກ, ແລະປັບແຕ່ງປະສົບການຂອງຜູ້ໃຊ້ໂດຍບໍ່ມີໂຄງສ້າງພື້ນຖານຫນັກ.

ຂໍ້ຈຳກັດ ແລະການປະຕິບັດທີ່ດີທີ່ສຸດແມ່ນຫຍັງ?

ການຈັດປະເພດໂດຍອີງໃສ່ການບີບອັດມີຂໍ້ຈໍາກັດທີ່ຮູ້ຈັກທີ່ທ່ານຄວນພິຈາລະນາ. ບົດເລື່ອງສັ້ນ (ຕ່ໍາກວ່າ 100 ໄບຕ໌) ຜະລິດຄະແນນ NCD ທີ່ບໍ່ຫນ້າເຊື່ອຖືເພາະວ່າເຄື່ອງອັດບໍ່ມີຂໍ້ມູນພຽງພໍທີ່ຈະສ້າງຮູບແບບທີ່ມີຄວາມຫມາຍ. ເຕັກນິກຍັງອ່ອນໄຫວຕໍ່ກັບການເລືອກບົດເລື່ອງອ້າງອີງ - ຜູ້ຕາງຫນ້າທີ່ຖືກຄັດເລືອກບໍ່ດີເຮັດໃຫ້ຄວາມຖືກຕ້ອງຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ແລະ​ເນື່ອງ​ຈາກ​ວ່າ NCD ເປັນ​ການ​ວັດ​ແທກ​ທາງ​ໄກ​ແທນ​ທີ່​ຈະ​ເປັນ​ແບບ​ຈໍາ​ລອງ, ມັນ​ບໍ່​ໄດ້​ສ້າງ​ຄະ​ແນນ​ຄວາມ​ຫມັ້ນ​ໃຈ​ຕາມ​ທໍາ​ມະ​ຊາດ.

ເພື່ອໃຫ້ໄດ້ປະໂຫຍດສູງສຸດຈາກວິທີການນີ້: ໃຊ້ຂໍ້ຄວາມອ້າງອີງຢ່າງໜ້ອຍ 500 ໄບຕ໌ຕໍ່ໝວດໝູ່, ທົດລອງການລວມຕົວຕົວຢ່າງຫຼາຍອັນຕໍ່ຊັ້ນຮຽນ (ເອກະສານຕົວແທນ 2-3 ສະບັບທີ່ເຂົ້າກັນໄດ້ຜົນດີຂອງວັດຈະນານຸກົມການບີບອັດທີ່ດີຂຶ້ນ), ປັບຕົວພິມຕົວໜັງສື ແລະຊ່ອງຫວ່າງກ່ອນການບີບອັດ, ແລະມາດຕະຖານໃນທົ່ວລະດັບການບີບອັດ Zstandard ລະດັບ 3, 6, ແລະ 10 ເພື່ອຊອກຫາຈຸດຄວາມໄວ-ຄວາມຖືກຕ້ອງ. ສໍາລັບການຈັດປະເພດຂໍ້ຄວາມຂະຫນາດນ້ອຍ, ຝຶກອົບຮົມວັດຈະນານຸກົມ Zstandard ລ່ວງໜ້າຢູ່ໃນ corpus ໂດເມນຂອງທ່ານ — ຂັ້ນຕອນດຽວນີ້ສາມາດປັບປຸງຄວາມຖືກຕ້ອງໄດ້ 8-12 ເປີເຊັນໃນເອກະສານສັ້ນ.

ຄຳຖາມທີ່ຖາມເລື້ອຍໆ

ການຈັດປະເພດທີ່ອີງໃສ່ການບີບອັດໃຊ້ໄດ້ກັບການວິເຄາະຄວາມຮູ້ສຶກບໍ?

ມັນສາມາດເຮັດໄດ້, ແຕ່ມີຂໍ້ຄວນລະວັງ. ການວິເຄາະຄວາມຮູ້ສຶກຮຽກຮ້ອງໃຫ້ມີການກວດສອບຄວາມແຕກຕ່າງຂອງ tonal subtle ພາຍໃນບົດເລື່ອງທີ່ຄ້າຍຄືກັນໂຄງສ້າງ. NCD ເຮັດວຽກທີ່ດີກວ່າສໍາລັບການຈັດປະເພດຫົວຂໍ້ທີ່ເອກະສານໃນປະເພດຕ່າງໆໃຊ້ຄໍາສັບທີ່ແຕກຕ່າງກັນ. ສໍາລັບຄວາມຮູ້ສຶກ, ຄວາມຖືກຕ້ອງໂດຍປົກກະຕິແມ່ນປະມານ 55-60% - ດີກວ່າແບບສຸ່ມ, ແຕ່ບໍ່ແມ່ນການຜະລິດ - ກຽມພ້ອມຂອງມັນເອງ. ການລວມເອົາຄຸນສົມບັດ NCD ກັບຮູບແບບການຖອຍຫຼັງຂອງ logistic ທີ່ມີນ້ໍາຫນັກເບົາ ປັບປຸງຜົນໄດ້ຮັບຢ່າງຫຼວງຫຼາຍ.

ຂ້ອຍສາມາດໃຊ້ໂມດູນ compression.zstd ໃນລຸ້ນ Python ກ່ອນ 3.14 ໄດ້ບໍ?

ບໍ່. ໂມດູນ compression.zstd ແມ່ນໃໝ່ໃນ Python 3.14. ສຳລັບລຸ້ນກ່ອນໜ້ານີ້, ໃຫ້ຕິດຕັ້ງແພັກເກັດ python-zstandard ຈາກ PyPI, ເຊິ່ງໃຫ້ຟັງຊັນ compress() ແລະ decompress(). ເຫດຜົນຂອງ NCD ຍັງຄົງຄືກັນ - ພຽງແຕ່ຄໍາຖະແຫຼງການນໍາເຂົ້າມີການປ່ຽນແປງ. ເມື່ອທ່ານອັບເກຣດເປັນ 3.14, ທ່ານສາມາດຫຼຸດການເພິ່ງພາພາກສ່ວນທີສາມທັງໝົດໄດ້.

Zstandard NCD ເຮັດວຽກແນວໃດເມື່ອປຽບທຽບກັບ TF-IDF ທີ່ມີຄວາມຄ້າຍຄືກັນຂອງ cosine?

ໃນການຈັດປະເພດຫົວຂໍ້ຫຼາຍຊັ້ນກັບຊຸດຂໍ້ມູນທີ່ມີຄວາມສົມດູນ, TF-IDF ບວກກັບ cosine ໂດຍທົ່ວໄປແລ້ວຄວາມຄ້າຍຄືກັນຈະບັນລຸຄວາມຖືກຕ້ອງ 75-82% ເມື່ອທຽບກັບ Zstandard NCD ຂອງ 62-68%. ຢ່າງໃດກໍຕາມ, TF-IDF ຕ້ອງການ vectoriser ທີ່ເຫມາະສົມ, ຄໍາສັບທີ່ກໍານົດ, ແລະລາຍຊື່ຄໍາທີ່ໃຊ້ສະເພາະຂອງພາສາ. Zstandard NCD ຮຽກຮ້ອງໃຫ້ບໍ່ມີການປຸງແຕ່ງກ່ອນນີ້, ເຮັດວຽກໃນທົ່ວພາສານອກກ່ອງ, ແລະຈັດປະເພດເອກະສານໃຫມ່ໃນໄລຍະເວລາຄົງທີ່ໂດຍບໍ່ຄໍານຶງເຖິງຂະຫນາດຄໍາສັບ. ສຳລັບການສ້າງຕົວແບບໄວ ຫຼືສະພາບແວດລ້ອມຫຼາຍພາສາ, NCD ມັກຈະເປັນເສັ້ນທາງທີ່ໄວກວ່າໄປສູ່ລະບົບການເຮັດວຽກ.

ບໍ່ວ່າທ່ານກໍາລັງສ້າງທໍ່ເນື້ອຫາອັດຕະໂນມັດ, ກໍານົດເສັ້ນທາງຂໍ້ຄວາມຂອງລູກຄ້າ, ຫຼືເຫດຜົນການຈັດປະເພດ prototyping ສໍາລັບທຸລະກິດດິຈິຕອນຂອງທ່ານ, ການສະຫນັບສະຫນູນ Zstandard ໃນຕົວຂອງ Python 3.14 ເຮັດໃຫ້ NCD ທີ່ອີງໃສ່ການບີບອັດສາມາດເຂົ້າເຖິງໄດ້ຫຼາຍກວ່າທີ່ເຄີຍ. ຖ້າທ່ານກໍາລັງຊອກຫາແພລະຕະຟອມແບບຄົບວົງຈອນເພື່ອຈັດການເນື້ອຫາທຸລະກິດ, ຜະລິດຕະພັນ, ຫຼັກສູດ, ແລະການຕິດຕໍ່ພົວພັນກັບລູກຄ້າ, ເລີ່ມສ້າງກັບ Mewayz ມື້ນີ້ ແລະວາງເຕັກນິກເຫຼົ່ານີ້ເພື່ອເຮັດວຽກໃນທົ່ວການດໍາເນີນງານຂອງທ່ານ.

.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime