Hacker News

Moteur MDST : exécutez les modèles GGUF dans le navigateur avec WebGPU/WASM

Moteur MDST : exécutez les modèles GGUF dans le navigateur avec WebGPU/WASM Cette exploration se penche sur mdst, examinant sa signification et son po — Mewayz Business OS.

5 lecture min.

Mewayz Team

Editorial Team

Hacker News

Moteur MDST : exécutez des modèles GGUF dans le navigateur avec WebGPU/WASM

Le moteur MDST est un moteur d'exécution émergent qui permet aux développeurs et aux entreprises d'exécuter des modèles de langage volumineux au format GGUF directement dans le navigateur à l'aide de WebGPU et WebAssembly (WASM), éliminant ainsi le besoin d'un serveur dédié ou d'un GPU cloud. Cette évolution vers une inférence d’IA entièrement côté client réécrit les règles de fourniture des fonctionnalités intelligentes dans les applications Web, rendant l’IA privée à faible latence accessible à toute personne disposant d’un navigateur moderne.

Qu’est-ce que le moteur MDST exactement et pourquoi est-il important ?

MDST Engine est un framework d'inférence d'IA natif pour navigateur conçu pour charger et exécuter des modèles GGUF quantifiés (le même format popularisé par des projets comme llama.cpp) directement dans un contexte Web. Plutôt que d'acheminer chaque requête d'IA via un point de terminaison cloud, MDST exécute l'inférence de modèle sur le propre matériel de l'utilisateur à l'aide de l'API WebGPU du navigateur pour le calcul accéléré par GPU et de WebAssembly pour des performances de repli du processeur quasi natives.

Cela est extrêmement important pour plusieurs raisons. Premièrement, cela supprime la latence aller-retour inhérente à l’inférence côté serveur. Deuxièmement, il conserve les données sensibles des utilisateurs entièrement sur l'appareil, ce qui constitue un avantage essentiel en matière de confidentialité pour les applications d'entreprise et grand public. Troisièmement, cela réduit considérablement les coûts d’infrastructure pour les entreprises qui autrement paieraient par appel d’API ou maintiendraient leurs propres clusters GPU.

"L'exécution de l'inférence IA dans le navigateur n'est plus une curiosité de preuve de concept : il s'agit d'une architecture viable en production qui échange les coûts centralisés du cloud contre du matériel utilisateur décentralisé, changeant fondamentalement qui supporte la charge de calcul des applications basées sur l'IA."

Comment WebGPU et WASM rendent-ils possible l’IA dans le navigateur ?

💡 LE SAVIEZ-VOUS ?

Mewayz remplace 8+ outils métier sur une seule plateforme

CRM · Facturation · RH · Projets · Réservations · eCommerce · PDV · Analytique. Forfait gratuit disponible à vie.

Commencez gratuitement →

Comprendre les fondements techniques du moteur MDST nécessite un bref aperçu des deux primitives principales du navigateur qu'il exploite. WebGPU est le successeur de WebGL, fournissant un accès GPU de bas niveau directement à partir du code de shader JavaScript et WGSL. Contrairement à son prédécesseur, WebGPU prend en charge les shaders de calcul, qui sont les bêtes de somme des opérations de multiplication matricielle qui dominent l'inférence LLM. Cela signifie que MDST peut envoyer des opérations tensorielles au GPU de manière hautement parallélisée, atteignant un débit qui était auparavant impossible dans un bac à sable de navigateur.

WebAssembly sert de solution de secours et de cible de compilation pour la logique d'exécution principale du moteur. Pour les appareils ne prenant pas en charge WebGPU (anciens navigateurs, certains environnements mobiles ou contextes de test sans tête), WASM fournit une couche d'exécution portable et performante qui exécute le code C++ ou Rust compilé à des vitesses dépassant de loin le JavaScript standard. Ensemble, WebGPU et WASM forment une stratégie d'exécution à plusieurs niveaux : GPU d'abord lorsqu'il est disponible, CPU via WASM lorsqu'il n'est pas disponible.

Que sont les modèles GGUF et pourquoi ce format est-il au cœur de cette approche ?

GGUF (GPT-Generated Unified Format) est un format de fichier binaire qui regroupe les poids de modèle, les données du tokenizer et les métadonnées dans un seul artefact portable. Conçu à l'origine pour prendre en charge un chargement efficace dans llama.cpp, GGUF est devenu la norme de facto pour les modèles quantifiés à poids ouvert, car il prend en charge plusieurs niveaux de quantification (de 2 bits à 8 bits), permettant aux développeurs de choisir le compromis entre la taille du modèle, l'empreinte mémoire et la qualité de sortie.

Pour l’inférence basée sur un navigateur, la quantification n’est pas facultative : elle est essentielle. Un modèle de paramètres 7B pleine précision nécessite environ 14 Go de mémoire. Lors de la quantification au quatrième trimestre, ce même modèle se réduit à environ 4 Go, et au deuxième trimestre, il peut descendre en dessous de 2 Go. La prise en charge de GGUF par MDST Engine signifie que les développeurs peuvent utiliser directement l'écosystème massif de modèles déjà quantifiés sans aucune étape de conversion supplémentaire, réduisant ainsi considérablement les obstacles à l'intégration.

Quels sont les cas d'utilisation réels pour les entreprises exécutant des modèles GGUF dans le navigateur ?

Les applications pratiques de l’inférence GGUF dans le navigateur couvrent presque tous les secteurs verticaux. Les entreprises qui adoptent cette approche débloquent des capacités qui étaient auparavant

Streamline Your Business with Mewayz

Mewayz brings 207 business modules into one platform — CRM, invoicing, project management, and more. Join 138,000+ users who simplified their workflow.

Start Free Today →

Essayer Mewayz gratuitement

Plateforme tout-en-un pour le CRM, la facturation, les projets, les RH & plus encore. Aucune carte de crédit requise.

Commencez à gérer votre entreprise plus intelligemment dès aujourd'hui.

Rejoignez 30,000+ entreprises. Plan gratuit à vie · Aucune carte bancaire requise.

Vous avez trouvé cela utile ? Partagez-le.

Prêt à passer à la pratique ?

Rejoignez 30,000+ entreprises qui utilisent Mewayz. Plan gratuit à vie — aucune carte de crédit requise.

Commencer l'essai gratuit →

Prêt à passer à l'action ?

Commencez votre essai gratuit Mewayz aujourd'hui

Plateforme commerciale tout-en-un. Aucune carte nécessaire.

Commencez gratuitement →

Essai gratuit de 14 jours · Pas de carte de crédit · Annulation à tout moment