Hacker News

Enjin MDST: jalankan model GGUF dalam penyemak imbas dengan WebGPU/WASM

Enjin MDST: jalankan model GGUF dalam penyemak imbas dengan WebGPU/WASM Penerokaan ini menyelidiki mdst, mengkaji kepentingan dan po — Mewayz Business OS.

4 min bacaan

Mewayz Team

Editorial Team

Hacker News

Enjin MDST: Jalankan Model GGUF dalam Penyemak Imbas dengan WebGPU/WASM

Enjin MDST ialah masa jalan yang baru muncul yang membolehkan pembangun dan perniagaan melaksanakan model bahasa besar format GGUF terus di dalam penyemak imbas menggunakan WebGPU dan WebAssembly (WASM), menghapuskan keperluan untuk pelayan khusus atau GPU awan. Peralihan ke arah inferens AI sebelah pelanggan sepenuhnya ini sedang menulis semula peraturan tentang cara ciri pintar disampaikan dalam aplikasi web, menjadikan AI peribadi dan kependaman rendah boleh diakses oleh sesiapa sahaja yang mempunyai penyemak imbas moden.

Apakah Sebenarnya Enjin MDST dan Mengapa Ia Penting?

Enjin MDST ialah rangka kerja inferens AI asli pelayar yang direka untuk memuatkan dan menjalankan model GGUF terkuantiti—format yang sama yang dipopularkan oleh projek seperti llama.cpp—secara langsung dalam konteks web. Daripada menghalakan setiap permintaan AI melalui titik akhir awan, MDST melaksanakan inferens model pada perkakasan pengguna sendiri menggunakan API WebGPU penyemak imbas untuk pengiraan dipercepatkan GPU dan WebAssembly untuk prestasi sandaran CPU hampir asli.

Ini sangat penting kerana beberapa sebab. Pertama, ia mengalih keluar kependaman pergi balik yang wujud pada inferens sebelah pelayan. Kedua, ia menyimpan data pengguna sensitif sepenuhnya pada peranti, yang merupakan kelebihan privasi kritikal untuk aplikasi perusahaan dan pengguna. Ketiga, ia secara mendadak mengurangkan kos infrastruktur untuk perniagaan yang sebaliknya akan membayar setiap panggilan API atau mengekalkan kluster GPU mereka sendiri.

"Menjalankan inferens AI dalam penyemak imbas bukan lagi rasa ingin tahu yang membuktikan konsep—ia merupakan seni bina berdaya maju pengeluaran yang memperdagangkan kos awan terpusat untuk perkakasan pengguna terdesentralisasi, secara asasnya mengubah siapa yang menanggung beban pengiraan aplikasi berkuasa AI."

Bagaimanakah WebGPU dan WASM Menjadikan AI Dalam Penyemak Imbas Mungkin?

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Mula Percuma →

Memahami asas teknikal Enjin MDST memerlukan pandangan ringkas pada dua primitif pelayar teras yang dimanfaatkannya. WebGPU ialah pengganti WebGL, menyediakan akses GPU peringkat rendah terus daripada JavaScript dan kod shader WGSL. Tidak seperti pendahulunya, WebGPU menyokong pelorek pengiraan, yang merupakan tenaga kerja operasi pendaraban matriks yang menguasai inferens LLM. Ini bermakna MDST boleh menghantar operasi tensor kepada GPU dengan cara yang sangat selari, mencapai daya pemprosesan yang sebelum ini mustahil di dalam kotak pasir penyemak imbas.

WebAssembly berfungsi sebagai sandaran dan sasaran kompilasi untuk logik masa jalan teras enjin. Untuk peranti yang tidak mempunyai sokongan WebGPU—pelayar lama, persekitaran mudah alih tertentu atau konteks ujian tanpa kepala—WASM menyediakan lapisan pelaksanaan mudah alih yang berprestasi yang menjalankan kod C++ atau Rust yang disusun pada kelajuan yang jauh melebihi JavaScript standard. Bersama-sama, WebGPU dan WASM membentuk strategi pelaksanaan berperingkat: GPU-diutamakan apabila tersedia, CPU-via-WASM apabila tidak.

Apakah Model GGUF dan Mengapa Format Itu Tumpuan kepada Pendekatan Ini?

GGUF (GPT-Generated Unified Format) ialah format fail binari yang membungkus berat model, data tokenizer dan metadata ke dalam satu artifak mudah alih. Pada asalnya direka bentuk untuk menyokong pemuatan yang cekap dalam llama.cpp, GGUF menjadi standard de facto untuk model berat terbuka terkuantisasi kerana ia menyokong berbilang tahap pengkuantitian—daripada 2-bit hingga 8-bit—membolehkan pembangun memilih pertukaran antara saiz model, jejak memori dan kualiti output.

Untuk inferens berasaskan penyemak imbas, kuantisasi bukan pilihan—ia adalah penting. Model parameter 7B ketepatan penuh memerlukan kira-kira 14 GB memori. Pada pengkuantitian Q4, model yang sama mengecut kepada kira-kira 4 GB, dan pada Q2 ia boleh turun di bawah 2 GB. Sokongan Enjin MDST untuk GGUF bermakna pembangun boleh terus menggunakan ekosistem besar model yang telah dikuantasikan tanpa sebarang langkah penukaran tambahan, secara mendadak merendahkan halangan kepada penyepaduan.

Apakah Kes Penggunaan Dunia Sebenar untuk Perniagaan yang Menjalankan Model GGUF dalam Penyemak Imbas?

Aplikasi praktikal inferens GGUF dalam penyemak imbas merangkumi hampir setiap menegak industri. Perniagaan yang menggunakan pendekatan ini membuka kunci keupayaan yang sebelum ini

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Jumpa ini berguna? Kongsikannya.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Bersedia untuk mengambil tindakan?

Mulakan percubaan Mewayz percuma anda hari ini

Platform perniagaan all-in-one. Tiada kad kredit diperlukan.

Mula Percuma →

14-day free trial · No credit card · Cancel anytime