Hur man odlar en sten

Aptiten

I Del 3 såg vi mekanismen: förutsäg nästa token, kasta tärningen, upprepa. Vackert enkelt. Men OpenAI byggde inte bara en elegant autocomplete — de byggde den i en skala ingen hade försökt tidigare.

GPT-1: 117 miljoner parametrar. ¹ GPT-2: 1,5 miljarder. ² GPT-3: 175 miljarder. ³

En 1 500-faldig ökning på två år. Och det var bara början.

Kapplöpningen mot skalan

Det som följde var en av de mest dramatiska upptrappningarna i teknikhistorien.

År 2020 upptäckte forskare att felet i modeller följer en jämn potenskurva. ⁴ Större modell, bättre resultat. Inget stup. Ingen avtagande avkastning. Och 2022 visade DeepMind att GPT-3 faktiskt var undertränad ⁵ — den optimala strategin var inte bara fler parametrar, det var mer data. Varje labb i världen började springa.

Att bryta väggen

I Del 3 stötte vi på den kvadratiska väggen: attention skalar som n², vilket begränsar hur mycket kontext en modell kan se. Forskare accepterade inte väggen. De attackerade den från alla håll.

Glidande fönster-attention är den enklaste lösningen: istället för att låta varje token titta på varje annan token, begränsa varje token till sina w närmaste grannar. Mistral använder ett fönster på 4 096. Kostnaden sjunker från n² till n × w — linjärt i kontextlängd.

Flash Attention är subtilare. Den ändrar inte vad modellen beräknar — matematiken är identisk med full attention. Den ändrar hur: genom att dela upp beräkningen i små block som ryms i GPU:ns snabba SRAM undviker den att någonsin materialisera hela n × n-matrisen i minnet. Resultatet: O(n) minne istället för O(n²), och 2–4× snabbare. ⁷

Multi-Query Attention (MQA) och Grouped-Query Attention (GQA) attackerar en annan flaskhals: key-value-cachen under generering. Istället för att lagra separata nycklar och värden för varje attention-huvud delar MQA en uppsättning över alla huvuden. GQA är kompromissen — grupper av huvuden delar KV-par. Llama 3 och Mistral använder båda GQA. ⁶

Välj en strategi nedan och dra i reglaget. Samma kontextlängd, vilt olika minnesnotor.

Varje token → varje token

Full

288.0 GB

Glidande

288.0 GB

Flash

9.0 GB

MQA

3.0 GB

GQA

24.0 GB

288.0 GB

uppmärksamhetsminne

O(n²)

komplexitet

512n = 4,096128K

Alla dessa är kompromisser. Full attention är fortfarande guldstandarden — den ser allt, missar inget. Men den är beräkningsmässigt omöjlig vid de kontextlängder moderna modeller behöver. Så vi approximerar, och accepterar att glidande fönster glömmer avlägsna tokens, att delade KV-huvuden förlorar viss nyans. Ingenjörsutmaningen i vår tid: gör approximationen tillräckligt bra så att ingen märker det.

Att krympa siffrorna

Även med snabbare attention finns det en trubbigare kostnad: minne. Varje parameter är ett flyttal. Vid full precision (FP32) tar varje tal 4 byte. GPT-3:s 175 miljarder parametrar i FP32 = 700 GB — mer än vad något enskilt GPU-kort rymmer.

Första tricket: använd mindre tal under träningen. FP16 (16-bitars flyttal) halverar minnesbehovet. Men FP16 har ett smalt dynamiskt omfång — gradienter kan svämma över eller under mitt i träningen. BF16 (bfloat16) löste detta: det behåller FP32:s 8-bitars exponent (samma omfång) men krymper mantissan (mindre precision). Avvägningen: man förlorar viss decimalnoggrannhet men talen sprängs aldrig. Google designade BF16 specifikt för djupinlärning, och 2022 var det standard för de flesta stora modellträningar.

I praktiken används båda: framåt- och bakåtpassen körs i BF16 för hastighet, men en masterkopia av vikterna ligger kvar i FP32. Modellen tänker i låg precision men minns i full precision. Detta är mixed-precision-träning.

Efter träningen kan man komprimera ytterligare. INT8-kvantisering mappar flyttalsvikter till 8-bitars heltal — 4× mindre än FP32, 2× mindre än FP16. Dettmers m.fl. visade att detta fungerar på modeller upp till 175 miljarder parametrar utan märkbar prestandaförlust, med ett smart trick: de ~0,1% av vikterna med extrema värden behålls i FP16, medan de övriga 99,9% komprimeras till INT8. ⁹

INT4 tar det längre — 8× komprimering jämfört med FP32. GPTQ visade att man kan komprimera en 175-miljardersmodell till 3–4 bitar per parameter och köra den på ett enda GPU-kort för första gången. ¹⁰

En 70-miljardersmodell som en gång krävde ett serverkluster ryms nu på en bärbar dator med ett gaming-GPU. Kvantisering gjorde inte bara AI billigare — det demokratiserade det.

Dra i reglaget för att se hur modellstorlek och precisionsformat påverkar minnesbehovet — och vilken hårdvara som faktiskt rymmer resultatet.

80 GB24 GB

FP32

261 GB

FP16

130 GB

BF16

130 GB

INT8

65 GB

INT4

33 GB

261 GB

modellminne

GPU-kluster

ryms på

INT4 ryms på ett datacenter-GPU. FP32 behöver ett helt rack.

7B70B175B405B

Llama 2 7B70B parametrarLlama 3.1 405B

Vad en token egentligen är

År 2020 hade AI-världen delats i två läger.

Encoders som BERT: smala uppgifter, korta kontexter, säkra, pålitliga. Man finjusterade en modell per problem och sov gott om natten.

Decoders som GPT-3: kunde göra nästan vad som helst. Inte pålitligt, men bredden var svindlande. Poesi, Python, juridik, köttbullsrecept — allt i en modell, utan finjustering. Den ultimata autocompletaren — häpnadsväckande kapabel, fullständigt opålitlig.

Men något annat puttrade tyst i arkitekturen.

Varje Transformer — encoder, decoder, text-till-text — talar samma språk: tokens. Och en token är bara ett tal. Ingenting i matematiken kräver att den representerar ett ord.

Vi lärde stenen att läsa. Vi lärde den att skriva. Vi odlade den tills världen märkte det. Vad händer när vi lär den att lyssna? Att se?

Läs Del 5: Hur man lär en sten att se →