Hur man lär en sten att skriva

Den andra halvan

Del 2 slutade med encodern — BERT, läsaren. Google tog ena halvan av Transformern och byggde den bästa maskin för läsförståelse världen någonsin sett.

OpenAI tog den andra halvan: decodern.

Där encodern ser varje ord samtidigt — dubbelriktad, hela bilden — bär decodern ögonbindel. Varje token kan bara uppmärksamma det som kom före. En kausal mask blockerar allt framåt. Hela dess existens är en enda uppgift: förutsäg nästa token.

Se skillnaden. Samma geometri som i Del 2 — riktningar, avstånd, mönster som växer fram lager för lager — men med färre kopplingar. Varje token når bara bakåt. Inget fusk, ingen framåtkikning. Bara: givet allt hittills, vad kommer härnäst?

2018 släppte OpenAI GPT-1 ¹ — en decoder med 117 miljoner parametrar tränad på böcker. Den var okej. Inte imponerande. BERT sopade golvet med den på varje läsförståelsetest.

Ett år senare skalade GPT-2 ² till 1,5 miljarder parametrar — 13 gånger större — och tränad på webbtext istället för bara böcker. Den kunde skriva sammanhängande stycken. Kreativa berättelser. Fejkade nyhetsartiklar så övertygande att OpenAI först vägrade släppa hela modellen. Men den hallucinerade konstant — självsäkert nonsens utklätt till fakta. Och på strukturerade uppgifter vann BERT fortfarande.

Encodern var den bättre läsaren. Decodern var den bättre skribenten. Och skribenter, visar det sig, skalar.

Den oändliga autocompletaren

År 2019 satsade de flesta forskare fortfarande på encodern. BERT ägde benchmarks. Decodern var arkitekturen som svamlade.

OpenAI satsade på skala. GPT-3: 175 miljarder parametrar. ³

Världens dyraste autocomplete

Det som verkligen fick folk att häpna med GPT-3 var att den aldrig programmerats för något specifikt. Ingen lärde den fransk grammatik. Ingen tränade den att skriva kod. Hela dess matematiska existens gick ut på en enda, vackert enkel uppgift: gissa nästa token.

Givet texten så här långt, tilldela en sannolikhet till varje möjligt nästa ord — och kasta tärningen. "Frankrikes huvudstad är..." → Paris (97,9%).

HuvudstadeniFrankrikeär???

Paris

97.9%

London

1.3%

0.5%

Bröd

0.0%

Varje ord är ett statistiskt vad. Inget mer.

Den väljer inte alltid den mest troliga token. Den samplar — kastar viktade tärningar, där troliga tokens vinner oftare men överraskningar händer.

Tränad på internet — bloggar, forum, kodarkiv, Reddit-diskussioner — lärde sig GPT-3 att när text ser ut som ett recept, avslutar man ett recept. När den ser ut som Python, skriver man Python. Trä ihop tillräckligt många tärningskast och resultatet börjar se ut som intelligens. Inte förståelse — extraordinärt sofistikerad mönsterigenkänning.

Illusionen av kunskap och hallucinationsproblemet

Jag satt inte bara och läste om de här modellerna — jag tränade dem. I slutet av 2019 byggde jag en svensk språkmodell på lånade TPU:er. Jag bad den skriva ett köttbullsrecept. Det började perfekt — sedan sa den att man skulle röra ner lingonsylten innan stekning. Alla svenskar ryser: lingon hör hemma på tallriken, aldrig i stekpannan. Ofarligt. Men samma felmönster — hallucinationer, där modellen inte vet vad som är sant, bara vad som låter sant — blir farligt snabbt. Fråga efter medicinsk rådgivning och du får en självsäker dosering som kan döda någon. Modellen producerar flytande text med identisk konfidens oavsett om den har rätt eller fel.

Hovra över markerade ord för att se konfidenspoäng.

Men vilken token?

Modellen tilldelar sannolikheter — men hur väljer vi egentligen? Det enklaste, girig avkodning (greedy decoding), tar alltid den mest troliga token. Säkert, men robotaktigt. Forskare byggde en verktygslåda med strategier för att kontrollera slumpen.

Temperatur skalar hela fördelningen. Låg temperatur skärper den — modellen låser sig på det säkraste svaret. Hög temperatur plattar ut den — varje token får en chans. Dra i reglaget nedan och se hur "2000mg" går från omöjlig till trolig. Samma modell, samma fråga — bara en annan siffra i en konfigfil.

???

200mg

44.0%

400mg

15.0%

800mg

10.0%

2000mg

31.0%

SäkerT = 1.0Kreativ

En siffra i en konfigfil avgör om modellen rekommenderar 200mg eller 2000mg.

Det här är inte bara teori. Googles Gemini 3 har temperature 1.0 som standard och varnar uttryckligen att sänka det "kan leda till oväntat beteende, som loopar eller försämrad prestanda." ⁴ År 2025 hade temperature 1.0 blivit branschstandard — inte ett kreativt val, utan ett tekniskt krav.

Top-k är ett hårt filter: överväg bara de k mest troliga tokens, ignorera resten. Enkelt men effektivt.

???

200mg

48.9%

400mg

16.7%

800mg

0.0%

2000mg

34.4%

Filtrera bort osannolika tokens — sampla sedan från de som är kvar.

Top-p (nucleus sampling) är smartare — fortsätt lägga till tokens uppifrån tills deras sammanlagda sannolikhet når ett tröskelvärde. Detta anpassar sig efter fördelningens form: när modellen är säker överlever färre tokens. När den är osäker släpps fler igenom.

???

200mg

48.9%

400mg

16.7%

800mg

0.0%

2000mg

34.4%

Striktp = 0.90Generös

Behåll tokens tills deras sammanlagda sannolikhet når p, sampla sedan.

Repetitionsstraff löser ett annat problem: utan det älskar modellen att upprepa sig. Straffa tokens som redan dykt upp, och resultatet förblir fräscht.

???

katter

50.0%

söta

22.2%

16.7%

små

11.1%

OFFON

Redan sagt "katter". Straffa det så modellen säger något nytt.

Och så finns beam search — istället för att binda sig till en token i taget utforskar den flera vägar samtidigt och väljer den bästa kompletta sekvensen.

Girig avkodning hade valt "fint". Beam search hittar "på väg att regna" — en bättre hel mening.

Prompt Engineering: Att viska till maskinen

Det fanns ett annat problem. GPT-3 visste inte att du pratade med den. Den trodde att den avslutade en webbsida.

Om du skrev "Översätt 'Where is the library?' till svenska" kanske den inte översatte alls. Istället kanske den genererade fler frågor, för den bestämde sig för att du skrev en lista med tentafrågor. Eller så började den skriva en Wikipedia-artikel om det svenska språket. Den var inte trasig. Den avslutade sidan.

För att få ut något användbart var man tvungen att formatera texten så att den mest troliga fortsättningen var svaret man behövde. Det här kallades Prompt Engineering — hälften vetenskap, hälften svart magi. Visa modellen ett mönster, och den fortsätter det.

>Översätt "Where is the library?" till svenska

Utan mönster att följa börjar modellen föreläsa istället för att översätta.

En modell, ingen finjustering — bara en annan prompt för marknadsföring, kod, översättning eller läsförståelse. Det var yxigt. Hälften av gångerna fick man briljant kod; resten en självsäkert skriven konspirationsteori om 5G-master. Men när det fungerade sparade man timmar. När det inte gjorde det förlorade man trettio sekunder på att läsa skräp. Den asymmetrin räckte för att bygga en hel industri.

Varför inte 200 exempel?

Om två exempel styr modellen så bra, varför inte klistra in tvåhundra? På grund av en vägg gömd inuti själva Transformern.

Minns du attention från Del 2? Varje token tittar på varje annan token för att avgöra vad som spelar roll. Det ger en n × n-matris — och n är antalet tokens i din prompt plus allt modellen genererat hittills. Dubbla kontexten, fyrdubbla minnet.

12 × 12

Kontextlängd512 tokens

n²262.1K

Minne (uppmärksamhetsmatris)4.5 GB

512² × 96 huvuden × 96 lager × 2 bytes

GPT-3GPT-4Modern

Kort promptn = 512Lång kontext

GPT-3:s kontextfönster var 2 048 tokens — ungefär 1 500 ord. ³ Dina tvåhundra exempel, instruktionerna och svaret måste alla rymmas i den boxen. Pressa in för mycket och minnet tar bokstavligen slut mitt i en mening. Det är därför prompt engineering var en konst i komprimering: säg mer med färre tokens.

Mekanismen var kraftfull men rå. Den naturliga frågan: vad händer när man gör den större?

Läs Del 4: Hur man odlar en sten →