Hacker News

Käivitage LLM-e lokaalselt rakenduses Flutter <200 ms latentsusega

\u003ch2\u003eKäitage LLM-e kohapeal rakenduses Flutter with

1 min read Via github.com

Mewayz Team

Editorial Team

Hacker News
\u003ch2\u003eKäitage LLM-e lokaalselt rakenduses Flutter <200 ms latentsusega\u003c/h2\u003e \u003cp\u003eSee avatud lähtekoodiga GitHubi hoidla annab olulise panuse arendaja ökosüsteemi. Projekt tutvustab kaasaegseid arendustavasid ja ühist kodeerimist.\u003c/p\u003e \u003ch3\u003eTehnilised funktsioonid\u003c/h3\u003e \u003cp\u003eHoiglasse kuulub tõenäoliselt:\u003c/p\u003e \u003cul\u003e \u003cli\u003ePuhas, hästi dokumenteeritud kood\u003c/li\u003e \u003cli\u003ePõhjalik README koos kasutusnäidetega\u003c/li\u003e \u003cli\u003eProbleemide jälgimise ja panuse juhised\u003c/li\u003e \u003cli\u003eRegulaarsed värskendused ja hooldus\u003c/li\u003e \u003c/ul\u003e \u003ch3\u003eCommunity Impact\u003c/h3\u003e \u003cp\u003eAvatud lähtekoodiga projektid, nagu see, soodustavad teadmiste jagamist ja kiirendavad tehnilist uuendust juurdepääsetava koodi ja koostöö arendamise kaudu.\u003c/p\u003e

Korduma kippuvad küsimused

Mida tähendab LLM-i lokaalne käitamine rakenduses Flutter?

LLM-i lokaalne käitamine tähendab, et mudel käivitub täielikult kasutaja seadmes – pole API-kõnesid, pilvesõltuvust ega Internetti pole vaja. Flutteri puhul saavutatakse see kvantiseeritud mudeli komplekteerimisega ja natiivsete sidumiste kasutamisega (FFI või platvormikanalite kaudu), et teha järeldusi otse seadmes. Tulemuseks on täielik võrguühenduseta võimalus, nullandmete privaatsusprobleemid ja reageerimise latentsusaeg, mis võib moodsa mobiilse riistvara puhul langeda alla 200 ms.

Millised LLM-id on mobiilseadmes töötamiseks piisavalt väikesed?

4-bitise või 8-bitise kvantiseerimisega mudelid parameetrivahemikus 1B–3B on mobiili jaoks praktiline maguskoht. Populaarsed valikud on Gemma 2B, Phi-3 Mini ja TinyLlama. Need mudelid võtavad tavaliselt 500 MB–2 GB salvestusruumi ja toimivad hästi keskklassi Android- ja iOS-seadmetes. Kui loote laiemat tehisintellektil töötavat toodet, võimaldavad sellised platvormid nagu Mewayz (207 moodulit, 19 $ kuus) sujuvalt kombineerida seadmesiseseid järeldusi pilve tagavara töövoogudega.

Kuidas on alla 200 ms latentsusaeg telefonis tegelikult saavutatav?

Alle 200 ms saavutamiseks on vaja kolme asja koos töötamist: tugevalt kvantiseeritud mudelit, mobiilsete protsessorite/NPU-de jaoks optimeeritud käitusaega (nt llama.cpp või MediaPipe LLM) ja tõhusat mäluhaldust, et mudel püsiks kõnede vahel RAM-is soojana. Viibade kogumine, võtmeväärtuse oleku vahemällu salvestamine ja esimese loa latentsusaja sihtimine täisjada latentsusaja asemel on peamised tehnikad, mis suruvad lühikeste viipade puhul reaktsiooniajad alla 200 ms.

Kas kohalik LLM-i järeldus on parem kui pilve API kasutamine Flutteri rakenduste jaoks?

See sõltub teie kasutusjuhtumist. Kohalik järeldus võidab privaatsuse, võrguühenduseta toe ja nulltaotluse kulu – ideaalne tundlike andmete või katkendliku ühenduvuse jaoks. Pilve API-d võidavad toores võimekuse ja mudeli värskuse poolest. Paljud tootmisrakendused kasutavad hübriidset lähenemisviisi: saate hõlpsalt seadmes toime tulla ja keerukad päringud pilve suunata. Kui soovite täispakki lahendust, mille mõlemad valikud on eelintegreeritud, katab Mewayz selle oma 207 mooduliga platvormiga alates 19 dollarist kuus.