Hacker News

Forbedring af 15 LLM'er ved kodning på én eftermiddag. Kun selen er skiftet

Forbedring af 15 LLM'er ved kodning på én eftermiddag. Kun selen er skiftet Denne omfattende analyse af forbedring tilbyder detaljeret e — Mewayz Business OS.

March 7, 2026 6 min læst

Mewayz Team

Editorial Team

Hacker News

At forbedre 15 store sprogmodeller ved kodning på en enkelt eftermiddag lyder som et måneskud - indtil du indser, at modellerne i sig selv aldrig har ændret sig. Den eneste variabel var selen: stilladser, meddelelser og evalueringsramme viklet rundt om hver model.

Denne opdagelse omformer, hvordan udviklere, produktteams og virksomhedsoperatører tænker på AI-assisteret kodning - og det har dybtgående konsekvenser for enhver, der bygger eller skalerer en softwaredrevet virksomhed i 2026.

Hvad er en LLM-sele, og hvorfor kontrollerer den alt?

En sele er laget mellem en rå sprogmodel og dens output fra den virkelige verden. Det inkluderer systemprompten, kontekstindsprøjtning, værktøjsdefinitioner, genfindingslogik og de evalueringskriterier, der bruges til at bedømme, om modellen lykkedes. Tænk på det som et flys cockpit: motoren (LLM) forbliver konstant, men instrumenterne og kontrollerne afgør, om flyvningen lander sikkert.

Da forskere testede 15 forskellige LLM'er mod en standardiseret suite af kodningsbenchmarks, fandt de ud af, at justering af selen - ikke finjustering af vægtene, ikke skifte udbyder - konsekvent flyttede nøjagtighedsscore med 12-28%. Modellerne spændte fra open source-muligheder som Mistral og CodeLlama til proprietære giganter som GPT-4o og Claude. I alle tilfælde klarede en veldesignet sele sig bedre end en dårligt designet med den samme underliggende model.

"Modellen er råvaren. Selen er opskriften. Man kan få verdens fineste mel og stadig bage et forfærdeligt brød, hvis teknikken er forkert." — AI Systems Research, 2025

Hvordan forbedrede udskiftning af sele 15 LLM'er på en eftermiddag?

Eksperimentet fulgte en disciplineret, gentagelig metode. Forskere identificerede fem selevariabler, der havde den højeste indflydelse på udførelse af kodningsopgaver:

Systempromptspecificitet — Erstatning af vage instruktioner som "skriv god kode" med eksplicitte begrænsninger omkring sprogversion, fejlhåndteringsstil og outputformat.

Kontekstvindueprioritering — Flytning af de mest relevante kodestykker og dokumentation til toppen af konteksten i stedet for at tilføje dem til sidst.

Chain-of-thought stilladser — Kræver, at modeller ræsonnerer gennem problemet trin-for-trin, før de genererer nogen kode, hvilket reducerer hallucinerede logiske spring.

💡 VIDSTE DU?

Mewayz erstatter 8+ forretningsværktøjer i én platform

CRM · Fakturering · HR · Projekter · Booking · eCommerce · POS · Analyser. Gratis plan for altid tilgængelig.

Start gratis →

Testdrevet outputformatering — Beder modeller om at producere enhedstests sammen med implementeringskode, hvilket skaber en indbygget selvkontrolmekanisme.

Opregning af fejltilstand — Beder modeller om eksplicit at angive kantsager, før de skriver løsningen, hvilket forbedrer fuldstændigheden med et gennemsnit på 19 %.

Hver ændring tog minutter at implementere. På tværs af alle 15 modeller var den kumulative effekt dramatisk. Ingen GPU-klynger, ingen yderligere træningsdata, ingen licensopgraderinger - kun en smartere grænseflade mellem menneskelige hensigter og maskinoutput.

Hvad betyder det for virksomheder, der er afhængige af AI-kodningsværktøjer?

For de fleste virksomheder er takeaway både ydmygende og befriende. Ydmygende fordi organisationer har brugt millioner på at jagte den "bedste" model, hvor selen var flaskehalsen hele tiden. Befriende, fordi det betyder, at meningsfuld forbedring er tilgængelig lige nu uden at vente på GPT-5 eller den næste grænseudgivelse.

Virksomhedsoperatører, der kører softwaretunge arbejdsgange – fra SaaS-platforme til interne værktøjer til klientvendte applikationer – kan opnå øjeblikkelige gevinster ved at revidere de promptelag, deres team bruger dagligt. Dette er især relevant for virksomheder, der administrerer flere AI-arbejdsgange samtidigt, hvor inkonsekvente udnytter designsammensætninger til storstilet ineffektivitet.

Platforme som Mewayz, der konsoliderer 207 forretningsmoduler i et enkelt operativsystem, er bygget på netop dette princip: at arkitekturen, der forbinder dine værktøjer, betyder lige så meget som værktøjerne selv. Når dit CRM, indholdspipeline, analysedashboard og automatiseringslag deler en sammenhængende ramme, yder hver komponent bedre - på samme måde som en veldesignet sele låser op for e.

Frequently Asked Questions

Can a better harness make a smaller, cheaper model outperform a larger one?

Yes, and this has been demonstrated repeatedly in benchmarks. A well-harnessed mid-tier model frequently matches or exceeds a flagship model operating under a generic prompt. For budget-conscious teams, harness optimization is the highest-ROI investment before upgrading to a more expensive model tier.

How long does it take to see measurable improvement after redesigning a harness?

With a structured testing protocol and a defined evaluation set, teams typically see measurable differences within hours, not weeks. The afternoon timeline in the original research is realistic for focused teams with clear benchmarks already in place.

Does harness quality matter more for some programming languages than others?

Yes. Languages with more implicit conventions — Python, JavaScript — tend to benefit more from explicit harness guidance because models have more degrees of freedom. Strongly typed languages like Rust or Go naturally constrain output more, though harness design still significantly impacts architecture quality and edge-case handling.

Ready to Build Smarter, Not Just Bigger?

The lesson from improving 15 LLMs in one afternoon is the same lesson driving the best-run businesses in 2026: the framework you operate within determines your outcomes more than any individual tool. Mewayz was built on this principle — 207 integrated business modules, a unified operating system for over 138,000 users, starting at just $19/month.

Stop patching disconnected tools together and start operating from a system designed to work. Launch your Mewayz workspace today at app.mewayz.com and experience what a coherent business harness actually feels like.

Prøv Mewayz Gratis

Alt-i-ét platform til CRM, fakturering, projekter, HR & mere. Ingen kreditkort kræves.

Start gratis Prøv Demo

Begynd at administrere din virksomhed smartere i dag.

Tilslut dig 30,000+ virksomheder. Gratis plan for altid · Ingen kreditkort nødvendig.

Start gratis → Se demo

Fandt du dette nyttigt? Del det.

X / Twitter LinkedIn Facebook WhatsApp

Klar til at sætte dette i praksis?

Tilslut dig 30,000+ virksomheder, der bruger Mewayz. Gratis plan for evigt — ingen kreditkort nødvendig.

Start gratis prøveperiode →

Relaterede artikler

Hacker News

Vis HN: Hopalong Attractor. En gammel klassiker med et nyt perspektiv i 3D

Mar 10, 2026

Hacker News

Windows: Microsoft brød det eneste, der betød noget

Mar 10, 2026

Hacker News

Tegning af, hvordan de 10k* mest almindelige engelske ord definerer hinanden

Mar 10, 2026

Hacker News

RVA23 afslutter Speculations monopol i RISC-V CPU'er

Mar 10, 2026

Hacker News

Nej, det koster ikke Anthropic $5k pr. Claude Code-bruger

Mar 10, 2026

Hacker News

Læring fra at betale kunstnere royalties for kunstig kunst

Mar 10, 2026

Klar til at handle?

Start din gratis Mewayz prøveperiode i dag

Alt-i-ét forretningsplatform. Ingen kreditkort nødvendig.

Start gratis →

14 dages gratis prøveperiode · Ingen kreditkort · Annuller når som helst

Forbedring af 15 LLM'er ved kodning på én eftermiddag. Kun selen er skiftet

Frequently Asked Questions

Can a better harness make a smaller, cheaper model outperform a larger one?

How long does it take to see measurable improvement after redesigning a harness?

Does harness quality matter more for some programming languages than others?

Ready to Build Smarter, Not Just Bigger?

Prøv Mewayz Gratis

Begynd at administrere din virksomhed smartere i dag.

Klar til at sætte dette i praksis?

Relaterede artikler

Start din gratis Mewayz prøveperiode i dag

Prøv Mewayz — Live

Vent - gå ikke tomhændet!

Tjek din indbakke!

Forbedring af 15 LLM'er ved kodning på én eftermiddag. Kun selen er skiftet

Frequently Asked Questions

Can a better harness make a smaller, cheaper model outperform a larger one?

How long does it take to see measurable improvement after redesigning a harness?

Does harness quality matter more for some programming languages than others?

Ready to Build Smarter, Not Just Bigger?

Related Posts

Prøv Mewayz Gratis

Begynd at administrere din virksomhed smartere i dag.

Klar til at sætte dette i praksis?

Relaterede artikler

Start din gratis Mewayz prøveperiode i dag

Skift sprog

Kontakt os

Vent - gå ikke tomhændet!

Tjek din indbakke!