Hacker News

Silnik MDST: uruchamiaj modele GGUF w przeglądarce za pomocą WebGPU/WASM

Silnik MDST: uruchamiaj modele GGUF w przeglądarce za pomocą WebGPU/WASM Ta eksploracja zagłębia się w mdst, badając jego znaczenie i po — Mewayz Business OS.

5 min. przeczytaj

Mewayz Team

Editorial Team

Hacker News

Silnik MDST: uruchamiaj modele GGUF w przeglądarce za pomocą WebGPU/WASM

Silnik MDST to nowe środowisko wykonawcze, które umożliwia programistom i firmom wykonywanie dużych modeli językowych w formacie GGUF bezpośrednio w przeglądarce przy użyciu procesorów WebGPU i WebAssembly (WASM), eliminując potrzebę stosowania dedykowanego serwera lub procesora graficznego w chmurze. To przejście w kierunku wnioskowania opartego wyłącznie na sztucznej inteligencji po stronie klienta zmienia zasady dostarczania inteligentnych funkcji w aplikacjach internetowych, dzięki czemu prywatna sztuczna inteligencja o niskim opóźnieniu będzie dostępna dla każdego posiadacza nowoczesnej przeglądarki.

Czym dokładnie jest silnik MDST i dlaczego ma to znaczenie?

MDST Engine to natywna dla przeglądarki platforma wnioskowania AI, zaprojektowana do ładowania i uruchamiania skwantowanych modeli GGUF — w tym samym formacie spopularyzowanym przez projekty takie jak llama.cpp — bezpośrednio w kontekście sieciowym. Zamiast kierować każde żądanie sztucznej inteligencji przez punkt końcowy w chmurze, MDST wykonuje wnioskowanie o modelu na własnym sprzęcie użytkownika, korzystając z interfejsu API WebGPU przeglądarki w celu obliczeń przyspieszanych przez procesor graficzny oraz modułu WebAssembly w celu uzyskania niemal natywnej wydajności rezerwowej procesora.

Ma to ogromne znaczenie z kilku powodów. Po pierwsze, usuwa opóźnienia w obie strony nieodłącznie związane z wnioskowaniem po stronie serwera. Po drugie, przechowuje wrażliwe dane użytkownika w całości na urządzeniu, co stanowi kluczową zaletę w zakresie prywatności zarówno w przypadku aplikacji korporacyjnych, jak i konsumenckich. Po trzecie, radykalnie zmniejsza koszty infrastruktury dla firm, które w przeciwnym razie płaciłyby za wywołanie API lub utrzymywały własne klastry GPU.

„Uruchamianie wnioskowania AI w przeglądarce nie jest już ciekawostką potwierdzającą słuszność koncepcji — to opłacalna w środowisku produkcyjnym architektura, która zamienia koszty scentralizowanej chmury na zdecentralizowany sprzęt użytkownika, zasadniczo zmieniając to, kto ponosi obciążenie obliczeniowe aplikacji opartych na sztucznej inteligencji”.

W jaki sposób WebGPU i WASM umożliwiają sztuczną inteligencję w przeglądarce?

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Zacznij za darmo →

Zrozumienie technicznych podstaw silnika MDST wymaga krótkiego spojrzenia na dwa podstawowe narzędzia przeglądarki, z których korzysta. WebGPU jest następcą WebGL, zapewniającym niskopoziomowy dostęp do GPU bezpośrednio z kodu JavaScript i modułu cieniującego WGSL. W przeciwieństwie do swojego poprzednika, WebGPU obsługuje moduły cieniujące, które są końmi pociągowymi operacji mnożenia macierzy, które dominują w wnioskowaniu LLM. Oznacza to, że MDST może wysyłać operacje tensorowe do procesora graficznego w sposób wysoce równoległy, osiągając przepustowość, która wcześniej była niemożliwa w piaskownicy przeglądarki.

WebAssembly służy jako rezerwa i cel kompilacji dla podstawowej logiki wykonawczej silnika. W przypadku urządzeń nie obsługujących WebGPU – starszych przeglądarek, niektórych środowisk mobilnych lub bezgłowych kontekstów testowych – WASM zapewnia wydajną, przenośną warstwę wykonawczą, która uruchamia skompilowany kod C++ lub Rust z szybkościami znacznie przekraczającymi standardowy JavaScript. Razem WebGPU i WASM tworzą wielopoziomową strategię wykonania: najpierw procesor graficzny, jeśli jest dostępny, a procesor przez WASM, jeśli nie.

Czym są modele GGUF i dlaczego ten format jest kluczowy dla tego podejścia?

GGUF (GPT-Generated Unified Format) to binarny format pliku, który pakuje wagi modeli, dane tokenizera i metadane w jeden przenośny artefakt. Pierwotnie zaprojektowany do obsługi wydajnego ładowania w pliku llama.cpp, GGUF stał się de facto standardem dla skwantowanych modeli o otwartej wadze, ponieważ obsługuje wiele poziomów kwantyzacji — od 2-bitowych do 8-bitowych — umożliwiając programistom wybór kompromisu między rozmiarem modelu, zajmowaną pamięcią i jakością wyjściową.

W przypadku wnioskowania opartego na przeglądarce kwantyzacja nie jest opcjonalna — jest niezbędna. W pełni precyzyjny model parametrów 7B wymaga około 14 GB pamięci. Podczas kwantyzacji w czwartym kwartale ten sam model zmniejsza się do około 4 GB, a w drugim kwartale może spaść poniżej 2 GB. Obsługa GGUF przez MDST Engine oznacza, że ​​programiści mogą bezpośrednio korzystać z ogromnego ekosystemu już skwantowanych modeli bez żadnego dodatkowego etapu konwersji, co radykalnie obniża barierę w integracji.

Jakie są rzeczywiste przypadki użycia dla firm korzystających z modeli GGUF w przeglądarce?

Praktyczne zastosowania wnioskowania GGUF w przeglądarce obejmują prawie każdą branżę. Firmy stosujące to podejście odblokowują możliwości, które były wcześniej dostępne

All Your Business Tools in One Place

Stop juggling multiple apps. Mewayz combines 207 tools for just $19/month — from inventory to HR, booking to analytics. No credit card required to start.

Try Mewayz Free →

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Uznałeś to za przydatne? Udostępnij to.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Rozpocznij darmowy okres próbny →

Gotowy, by podjąć działanie?

Rozpocznij swój darmowy okres próbny Mewayz dziś

Platforma biznesowa wszystko w jednym. Karta kredytowa nie jest wymagana.

Zacznij za darmo →

14-day free trial · No credit card · Cancel anytime