Hacker News

Forbedre 15 LLM-er ved koding på en ettermiddag. Bare selen ble endret

Forbedre 15 LLM-er ved koding på en ettermiddag. Bare selen ble endret Denne omfattende analysen av forbedring tilbyr detaljert e — Mewayz Business OS.

6 min read

Mewayz Team

Editorial Team

Hacker News

Å forbedre 15 store språkmodeller ved koding på en enkelt ettermiddag høres ut som et månebilde – helt til du innser at modellene i seg selv aldri endret seg. Den eneste variabelen var selen: stillaset, instruksjonene og evalueringsrammeverket rundt hver modell.

Denne oppdagelsen omformer hvordan utviklere, produktteam og forretningsoperatører tenker på AI-assistert koding – og det har dype implikasjoner for alle som bygger eller skalerer en programvaredrevet virksomhet i 2026.

Hva er en LLM-sele og hvorfor kontrollerer den alt?

En sele er laget mellom en råspråkmodell og dens virkelige utgang. Den inkluderer systemforespørselen, kontekstinjeksjon, verktøydefinisjoner, gjenfinningslogikk og evalueringskriteriene som ble brukt for å bedømme om modellen lyktes. Tenk på det som cockpiten til et fly: motoren (LLM) forblir konstant, men instrumentene og kontrollene avgjør om flyet lander trygt.

Da forskere testet 15 forskjellige LLM-er mot en standardisert pakke med referanseindekser for koding, fant de at det å justere selen – ikke finjustere vektene, ikke bytte leverandør – økte nøyaktighetspoeng konsekvent med 12–28 %. Modellene varierte fra åpen kildekode-alternativer som Mistral og CodeLlama til proprietære giganter som GPT-4o og Claude. I alle tilfeller overgikk en godt designet sele en dårlig designet med samme underliggende modell.

"Modellen er råvaren. Selen er oppskriften. Du kan ha verdens fineste mel og fortsatt bake et forferdelig brød hvis teknikken er feil." — AI Systems Research, 2025

Hvordan ble 15 LLM-er på en ettermiddag bedre ved å bytte sele?

Eksperimentet fulgte en disiplinert, repeterbar metodikk. Forskere identifiserte fem selevariabler som hadde størst innflytelse på ytelse av kodeoppgaver:

Systempromptspesifisitet — Erstatter vage instruksjoner som "skriv god kode" med eksplisitte begrensninger rundt språkversjon, feilhåndteringsstil og utdataformat.

Kontekstvinduprioritering — Flytter de mest relevante kodebitene og dokumentasjonen til toppen av konteksten i stedet for å legge dem til på slutten.

Tankekjede-stillas – Krever at modeller resonnerer gjennom problemet trinn for trinn før de genererer noen kode, noe som reduserer hallusinerte logiske hopp.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

Testdrevet utdataformatering – Be modeller om å produsere enhetstester sammen med implementeringskode, og skaper en innebygd selvsjekkmekanisme.

Oppregning av feilmodus — Ber modeller om å eksplisitt liste kantsaker før de skriver løsningen, og forbedrer fullstendigheten med gjennomsnittlig 19 %.

Hver endring tok minutter å implementere. På tvers av alle 15 modellene var den kumulative effekten dramatisk. Ingen GPU-klynger, ingen ekstra opplæringsdata, ingen lisensieringsoppgraderinger – bare et smartere grensesnitt mellom menneskelig hensikt og maskinutgang.

Hva betyr dette for bedrifter som er avhengige av AI-kodingsverktøy?

For de fleste bedrifter er takeawayen både ydmykende og befriende. Ydmykende fordi organisasjoner har brukt millioner på å jage den «beste» modellen, da selen var flaskehalsen hele tiden. Befriende fordi det betyr at meningsfull forbedring er tilgjengelig akkurat nå, uten å vente på GPT-5 eller neste grenseutgivelse.

Bedriftsoperatører som kjører programvaretunge arbeidsflyter – fra SaaS-plattformer til interne verktøy til klientvendte applikasjoner – kan oppnå umiddelbare gevinster ved å revidere forespørselslagene teamene deres bruker daglig. Dette er spesielt relevant for bedrifter som administrerer flere AI-arbeidsflyter samtidig, der inkonsekvente utnytter designsammensetninger til storskala ineffektivitet.

Plattformer som Mewayz, som konsoliderer 207 forretningsmoduler til ett enkelt operativsystem, er bygget på akkurat dette prinsippet: at arkitekturen som kobler sammen verktøyene dine betyr like mye som selve verktøyene. Når CRM, innholdspipeline, analysedashboard og automatiseringslag deler et sammenhengende rammeverk, yter hver komponent bedre – på samme måte som en veldesignet sele låser opp e

Frequently Asked Questions

Can a better harness make a smaller, cheaper model outperform a larger one?

Yes, and this has been demonstrated repeatedly in benchmarks. A well-harnessed mid-tier model frequently matches or exceeds a flagship model operating under a generic prompt. For budget-conscious teams, harness optimization is the highest-ROI investment before upgrading to a more expensive model tier.

How long does it take to see measurable improvement after redesigning a harness?

With a structured testing protocol and a defined evaluation set, teams typically see measurable differences within hours, not weeks. The afternoon timeline in the original research is realistic for focused teams with clear benchmarks already in place.

Does harness quality matter more for some programming languages than others?

Yes. Languages with more implicit conventions — Python, JavaScript — tend to benefit more from explicit harness guidance because models have more degrees of freedom. Strongly typed languages like Rust or Go naturally constrain output more, though harness design still significantly impacts architecture quality and edge-case handling.

Ready to Build Smarter, Not Just Bigger?

The lesson from improving 15 LLMs in one afternoon is the same lesson driving the best-run businesses in 2026: the framework you operate within determines your outcomes more than any individual tool. Mewayz was built on this principle — 207 integrated business modules, a unified operating system for over 138,000 users, starting at just $19/month.

Stop patching disconnected tools together and start operating from a system designed to work. Launch your Mewayz workspace today at app.mewayz.com and experience what a coherent business harness actually feels like.

Try Mewayz Free

All-in-one platform for CRM, invoicing, projects, HR & more. No credit card required.

Start managing your business smarter today

Join 30,000+ businesses. Free forever plan · No credit card required.

Ready to put this into practice?

Join 30,000+ businesses using Mewayz. Free forever plan — no credit card required.

Start Free Trial →

Ready to take action?

Start your free Mewayz trial today

All-in-one business platform. No credit card required.

Start Free →

14-day free trial · No credit card · Cancel anytime