Hur man lär en sten att förstå
NLP

Hur man lär en sten att förstå

Från korttidsamnesi till Attention — hur Transformers bröt AI-industrin vidöppen.

1 mars 2026

Kontextproblemet

Del 1 slutade med en brist: ord som "spela" fick en enda betydelse, oavsett sammanhang. Lösningen behövde något som kunde läsa en hel mening och avgöra vilka ord som spelar störst roll. Den idén hade ett namn: attention.


Attention Is All You Need

Före 2017 läste modeller text ett ord i taget, i ordning — och glömde sakta vad som kom innan. Vid slutet av en lång mening var början ett spöke.

Dengamleprofessornsomhadeundervisatviduniversitetetiövertrettioårbestämdesigäntligenförattipensionefterterminen
Vid ord 20 är ord 1 ett spöke.

Jag byggde NLP för svenska kunder på Almvy och sprang in i den här väggen hela tiden. Modellerna kunde fokusera på närliggande ord, men sammanhang över längre avstånd bara försvann.

2017 frågade ett team på Google: tänk om modellen kunde titta på alla ord på en gång? Inte ett i taget — alla, parallellt. Varje ord får bestämma vilka andra ord som spelar störst roll.

Honvillespelapianomenfotbollsmatchenhadebörjat

Det är attention. Och det förändrar allt — "spela" betyder äntligen något annat bredvid "fotboll" än bredvid "piano."

fotbollmålmatchlagpianomelodikonsertinstrumentsportmusikspelaWord2Vec: fast i mitten.fotbollspelapianospelaMed kontext: rätt betydelse, rätt plats.

De paketerade det i en komplett arkitektur kallad Transformern. Den hade två halvor: en Encoder som läser och förstår indata, och en Decoder som genererar ny text.


Transformern

Googles artikel 2017 paketerade attention i en komplett arkitektur kallad Transformern. Den hade två halvor: en Encoder som läser och förstår indata, och en Decoder som genererar ny text.

ENCODERLager 1Lager 2Lager 3Lager 4Lager 5Lager 6MonchatestroiINPUTDECODERLager 1Lager 2Lager 3Lager 4Lager 5Lager 6MinkattärkungOUTPUT

Encodern bearbetar hela inmatningen genom flera lager av attention och bygger en djupare representation vid varje steg. Decodern använder sina egna attention-lager för att generera utdata en token i taget, samtidigt som den riktar attention mot encoderns representation — kopplar det den skriver till det den läst.

Men Transformern var inte bara en översättare. Googles T5 visade att om man formulerar varje NLP-uppgift som text-till-text — översätt det här, sammanfatta det där, klassificera det här — så klarar en och samma arkitektur allt.

Översätt
translate: Mon chat est roi
T
Min katt är kung
Samma modell. Olika uppgifter. Bara byt prefix.

Det här var ritningen. Men forskarna frågade snabbt: behöver vi verkligen båda halvorna?


Den stora splittringen: Läsare vs Skribenter

Forskningsvärlden slet isär Transformern.

Transformern (2017)BERTEncoder · DubbelriktadUppgiftshuvudMulti-Head AttentionAdd & NormFeed ForwardAdd & Norm×NInput EmbeddingText+ Positional EncodingENCODERGoogle, 2018GPTDecoder · FramåtriktadLinearSoftmaxOutput ProbabilitiesNästa token →Masked Multi-Head AttnAdd & NormMulti-Head AttentionAdd & NormFeed ForwardAdd & Norm×N×NOutput EmbeddingText / Prompt+ Positional EncodingDECODEROpenAI, 2018K, V

Google tog Encodern och byggde BERT. Encoders är dubbelriktade — de läser framåt och bakåt samtidigt. Man tränar dem genom att maskera ord i en mening och tvinga modellen att gissa vad som saknas. Detta gav BERT en djup förståelse av språkstruktur, och den krossade varje läsförståelserekord över en natt.

När BERT släpptes funkade mina engelska experiment plötsligt. Svenska? Ingenting — ingen hade tränat en svensk modell. Sedan i september 2019 vaknade jag hög som ett hus efter en nyckelbenoperation, såg ALBERT slå genomsnittsmänniskan i engelsk läsförståelse, och fattade ett beslut: jag tänker inte vänta på universiteten. Jag bygger det här för svenska själv. Det gjorde jag — och det slog genomsnittsmänniskan på högskoleprovet.

Minns du geometrin från Del 1? Riktning kodade relationer — Man till Kvinna var samma pil som Kung till Drottning. Avstånd kodade likhet. Men den geometrin var frusen. Varje ord fick en position, för alltid.

Attention spränger det vidöppet. Samma geometri — riktningar, avstånd, relationer — men nu byggs den om från grunden för varje mening. Varje lager av attention omformar rymden: flyttar ord närmare varandra när de hänger ihop i just det här sammanhanget, skjuter isär dem när de inte gör det. Lager efter lager, tusentals attention-poäng som ritar om kartan. Geometrin från Del 1 var grunden. Det här är grunden på steroider.

Titta på vektorerna. Varje lager formar om rymden — ord som hänger ihop dras samman, ord som inte gör det driver isär. Hittar den grammatik? Betydelse? Något mönster ingen människa skulle kunna namnge? Tolv lager djupt, tusentals attention-poäng som avfyras, och geometrin förändras hela tiden. Ingen vet riktigt vad den lär sig där inne. Men vad det än är — det fungerar.

OpenAI tog den andra halvan. De slet ut decodern, kastade encodern, och byggde GPT. Den kunde inte läsa lika bra som BERT — den förlorade varje benchmark. Men decodern kunde göra något encodern inte kunde: skriva. Och OpenAI hade en plan för det.

Läs Del 3: Hur man lär en sten att skriva