I den förra texten skrev jag om Fable 5-bannet och varför vi i Europa behöver äga en del av vår AI-stack. Det var den strategiska argumentationen. Det här är den praktiska. Den helg jag satte mig ner, stängde av molnet, och tvingade mig att göra riktigt arbete med modeller som kör på min egen maskin.
Jag tänkte att det skulle vara frustrerande. Det var det ibland. Men mest var det förvånande.
Börja med motorn, inte med bilen
Det vanligaste misstaget folk gör med lokala modeller är att de börjar med att jaga den perfekta modellen. De läser benchmarks, jämför parametrar, debatterar Qwen mot Llama på Reddit. Sedan inser de att de inte ens har ett program som kan köra modellen. Det är fel ordning.
Först behöver du en runtime. Ett program som tar en modellfil och kör den på din hårdvara. Ollama körs från terminalen, en kommandorad och modellen startar. LM Studio har ett grafiskt gränssnitt där du klickar och det kör. Jag kör Ollama själv. I båda fallen har du en modell igång på 15 minuter.
Sedan kommer frågan om storlek. En modells storlek mäts i miljarder parametrar, och det enda du behöver förstå är förhållandet mellan parametrar och RAM. 4 miljarder kör på i princip vad som helst, inklusive telefoner. 12 miljarder är sweet spot för maskiner med 16 GB RAM och räcker för sammanfattningar, skrivhjälp, enklare kod och de flesta dagliga frågor. Det här är nivån där jag blev förvånad: en 12-miljardersmodell på min Mac klarade uppskattningsvis 80 procent av det jag normalt använder Claude eller ChatGPT till. 27 till 35 miljarder kräver en Mac med 32 GB eller dedikerat GPU, och där börjar det kännas genuint kapabelt. 70 miljarder och uppåt kräver seriös hårdvara. En maxad Mac Studio, eller något som Nvidias DGX Spark med 128 GB unified memory som i praktiken blir ett litet datacenter på skrivbordet.
Min setup den här helgen var en MacBook Pro med 36 GB RAM. Det räckte för 27-miljardersmodeller med kvantisering, och det var mer än tillräckligt.
Modellerna som faktiskt levererar
Det finns dussintals öppna modeller. Jag testade de som folk rekommenderar och kan bekräfta att ryktet stämmer på de flesta.
Qwen 3.6 från Alibaba är den bästa allroundern just nu. Stark på kod, stark på flerspråkigt, ren kommersiell licens. 27- och 35-miljardersvarianterna presterar på nivåer som överträffar förra generationens modeller fyra gånger deras storlek. Om du bara ska lära dig en modell, lär dig den här.
DeepSeek är bäst på svårare resonemang och kodproblem. Reasoning-modellerna tänker i 10 till 30 sekunder innan de svarar. Det är inte ett prestandaproblem, det är modellen som faktiskt resonerar.
Gemma från Google kör otroligt kompakt, en version ryms i 16 GB RAM och skriver vackert. Att Google ger bort den gratis är remarkabelt. Mistral från Paris är den europeiska utmanaren: mixture-of-experts-arkitektur, ren kommersiell licens, europeisk lag, och ingen intressekonflikt med det amerikanska försvarsdepartementet. Om det europeiska beroendet oroar dig, börja med Mistral. Llama från Meta har det största ekosystemet med enormt community och massor av finjusteringar. När du inte vet vilken modell som passar finns det sannolikt en Llama-variant.
Ett koncept gör allt det här möjligt: kvantisering. Tekniken krymper en modell så att den kör på svagare hårdvara med minimal kvalitetsförlust. Tänk skillnaden mellan en okomprimerad bildfil och en högkvalitets-JPEG. Filen är mycket mindre, ögat ser knappt skillnad. När du laddar ner modeller ser du etiketter som Q4 eller Q5, det är kompressionsnivån. Q4 halverar ungefär minnesbehovet. Det är det som gör att en modell som "egentligen" behöver en server plötsligt kör smidigt på din laptop.
Från kalkylator till assistent
Att köra en modell och chatta med den i terminalen är en sak. Det riktiga uppsvinget kommer när du pekar en agent mot din lokala modell.
Hermes är just nu den mest använda AI-agenten i världen, specifikt byggd för att köra lokalt och aldrig stanna. Du pekar den mot din lokala modell och plötsligt har du en agent som kör gratis, kör offline, minns allt, skriver sina egna verktyg, och som du kan meddela via Telegram medan det tunga arbetet kör på boxen på skrivbordet. Skillnaden mellan kalkylator och assistent: kalkylatorn svarar på det du frågar, assistenten tar initiativ.
Fem saker jag tar med mig efter den här helgen.
Kontextfönstret är den verkliga begränsningen. Molnmodeller ger dig enormt kontextfönster utan att du tänker på det. Lokala modeller gör att du betalar för det i RAM. Håll sessioner snäva. Dumpa inte hela ditt liv i en tråd, annars stryps maskinen och du drar slutsatsen att lokala modeller inte fungerar. De fungerar. Men de kräver disciplin.
Verktyg kompenserar för modellstorlek. En liten lokal modell med webbsökning, filåtkomst och möjlighet att köra kod slår en stor modell utan verktyg. Modellen är motorn. Verktygen är hjulen.
En quirk jag inte förväntade mig: ibland glömmer den lokala modellen att den har tillgång till verktyg mitt i en session. Inte ett showstopper, men per juni 2026 fortfarande en barnsjukdom.
Det snabbaste sättet att bygga instinkten är att köra lokalt och moln sida vid sida i en vecka. Du kommer bli förvånad över hur ofta den gratis lokala modellen räcker. Du slutar nå efter den dyra optionen för saker som en 12-miljardersmodell hanterar utan problem. Den instinkten, att veta vad som ska köras var, är den viktigaste AI-färdigheten just nu.
Och privacyaspekten är en ren affärsmöjlighet. Allt körs offline. Din data lämnar aldrig maskinen. Det öppnar hela marknader som molnbaserade verktyg inte kan nå: sjukvård, juridik, finans. Alla branscher som juridiskt inte kan skicka sin data till ett tredjepartsAPI. Den begränsningen som hindrar molnleverantörerna är din konkurrensfördel om du bygger lokalt.
Var gränsen faktiskt går
Jag vill vara ärlig. Lokala modeller ersätter inte frontier-modellerna för allt. Det finns uppgifter där jag fortfarande behöver Claude eller GPT-5. Långa, komplexa kodgenereringar. Djupa analyser av stora dokument. Situationer där jag behöver den absolut bästa modellen som finns.
Men 80 procent av det dagliga arbetet? Sammanfattningar, utkast, kodrecensioner, dataextraktion, brainstorming? Den lokala modellen klarar det. Utan att min data skickas till en server i Virginia. Utan API-kostnad. Utan risken att den försvinner med ett regeringsbrev.
Gapet mellan gratis och lokalt kontra dyrt och moln stängdes snabbare än jag förväntade mig. Och det fortsätter stänga sig. Varje ny version av Qwen, Gemma, Llama och DeepSeek är bättre. Varje ny kvantiseringsteknik gör att samma modell kör på billigare hårdvara.
Ladda ner Ollama. Dra ner Mistral eller Qwen 3. Kör den på en riktig uppgift. Inte som experiment. Som arbetsverktyg.
Och nästa gång något stängs av, och det kommer hända igen, kan du fortfarande köra din verksamhet. Från din egen maskin. Med din egen generator i garaget.
