Hur man lär en sten att se
NLP

Hur man lär en sten att se

Från pixlar till poesi — hur en arkitektur lärde sig se, höra och drömma.

1 mars 2026

Det universella språket

Del 4 avslutades med en tyst insikt. Varje Transformer — encoder, decoder, text-till-text — talar samma språk: tokens. Och en token är bara ett tal.

Ingenting i matematiken kräver att det talet representerar ett ord. Det kan representera en pixel. Ett ljud. En videobildruta. Forskarna tittade på Transformern och frågade: vad händer om vi bara... matar in något annat?

Men vad betyder "token" egentligen för text? Datorer ser inte ord som vi gör. De bryter upp text i tokens — bitar som kan vara hela ord, orddelar eller enstaka tecken. Ordet "olyckligaste" kan bli fem delar: "o", "lyck", "lig", "aste". Vanliga ord som "den" förblir hela. Ovanliga ord delas upp. Olika modeller delar upp text på olika sätt — två modeller som tittar på samma mening kan producera helt olika tokens.

Den olyckligaste forskaren upptäckte tokenisering
Resultat: 13 tokens från 5 ord

Framöver säger vi bara "ord" för att hålla det enkelt.

Interaktiv tokenizer laddas...

Det är textsidan. Men Transformern bryr sig inte om var siffrorna kommer ifrån.


Att lära en sten att se

Svaret visade sig vara nästan pinsamt enkelt. Ta ett foto. Dela upp det i ett rutnät av 16×16 rutor. Platta ut varje ruta till en vektor — precis som en ordvektor från Del 1. Mata in sekvensen i en Transformer. 1

Samma attention-mekanism från Del 2. Samma arkitektur. Men nu, istället för att ord uppmärksammar ord, uppmärksammar bildrutor andra bildrutor. Kattens öra lär sig att morrhåren spelar roll. Himlen lär sig att ignorera marken.

Artikelns titel sa allt: "An Image is Worth 16×16 Words."

INBÄDDNINGSRYMDliknande rutor klustrar ihop
224 x 224 pxklicka en rutaPOSITIONSKODNINGkosinuslikhet med vald ruta
[CLS] + 49 TOKENS
[CLS]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
32×32 px rutaLÄSA PIXLAR...4,608 värden
[0.82, 0.71, 0.64, 0.79, ...]4,608×W=embedding
pixelvärdeninlärda vikter= inbäddning
INBÄDDNINGSVEKTOR
[0.4200.8800.1500.6700.9300.3100.7600.5400.8500.2900.6100.7400.5000.3300.7800.4500.9100.2200.6800.570, ...]
768 dimensioner

Och det fungerade. Inte sådär-fungerade — det matchade eller slog de bästa bildklassificerarna i världen, modeller som specialbyggts för datorseende under ett decennium. Transformern brydde sig inte om att det inte var ord. Tokens är tokens.


Att koppla ihop ögon och öron

Om bilder, ljud och text alla bara är sekvenser av tal, kunde man placera dem i samma rymd? OpenAI:s CLIP 2 tränade två encoders — en för bilder, en för text — och tryckte matchande par nära varandra över 400 miljoner bild-textpar. Resultatet var vektorrummet från Del 1 — men nu levde ord och bilder i det.

Loading 3D visualization...

Whisper 4 tog det längre: rikta encoder-decoder-Transformern mot spektrogram och låt den "översätta" tal till text. Samma arkitektur som översatte engelska till franska, nu översatte den ljud till ord.


Att titta in i rymden

Med bilder och text i samma rymd kunde vi göra något nytt: titta mellan koncept. Vad finns mitt emellan "lemon," "dwarf" och en bild av en robot? 2021 försökte mitt team på Labelf ta reda på det. Vi kopplade ihop BigGAN — en bildgenerator från 2018 — med CLIP. CLIP väljer en position i det multimodala rummet baserat på prompten "lemon dwarf robot," och BigGAN försöker måla vad den positionen ser ut som. Bildruta för bildruta, CLIP styr, BigGAN renderar. (BigGAN är gammal och en medioker målare — bilderna är en approximation av vad rymden innehåller, inte en perfekt rendering. Häng inte upp dig på artefakterna.)

Loading visualization...

Men titta förbi BigGANs begränsningar och se skalorna: lemon-skalan, dwarf-skalan, robot-skalan. Sfären går aldrig helt till ett enda koncept — den behåller alltid spår av de andra. Man tittar på rymdens geometri i rörelse. Alla mönster, alla kopplingar mellan koncept — det är vad som lever i den här geometrin. Och för första gången kunde vi faktiskt se det.

DALL-E 3 gick längre: text in, bild ut. Stable Diffusion 5 gjorde det till öppen källkod och tillräckligt snabbt för att köra på en laptop. Transformern läste inte bara världen. Den ritade den.


Att lära en sten att höra

Ljud är bara ett rutnät av frekvenser. Omvandla det till ett mel-spektrogram — en värmekarta av tid mot frekvens — och det ser ut som en bild. Audio Spectrogram Transformer 6 gjorde exakt det som ViT gjorde: dela upp det i 16×16 rutor och mata in dem i en Transformer. Samma arkitektur, inga ljudspecifika trick. Tokens är tokens.

INBÄDDNINGSRYMDliknande rutor klustrar ihop
1280mel-bin064tidsram128 mel fack x 64 ramarklicka en rutaPOSITIONSKODNINGkosinuslikhet med vald ruta
[CLS] + 60 TOKENS
[CLS]
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
16x16 rutaPLATTA UT...256 värden
[0.82, 0.71, 0.64, 0.79, ...]256×W=embedding
mel-magnituderinlärda vikter= inbäddning
INBÄDDNINGSVEKTOR
[0.4200.8800.1500.6700.9300.3100.7600.5400.8500.2900.6100.7400.5000.3300.7800.4500.9100.2200.6800.570, ...]
768 dimensioner

Metas MusicGen 7 vände på det: istället för en encoder som läser ljud-tokens, skriver en decoder dem — förutsäger nästa autoregressivt, precis som GPT förutsäger nästa ord. Samma arkitektur som Del 3. Andra tokens.


En arkitektur, varje sinne

År 2022 kunde samma Transformer-arkitektur — oförändrad sedan 2017 — läsa text, klassificera bilder, transkribera tal och generera konst. Ingen ritade om den. Man ändrade bara vad tokens representerade. Med multimodalitet löst och skalningslagar i full blom fanns inga fundamentala genombrott kvar att vänta på.

Det var ett spel om tid, styrning, data och finansiering nu.

Men stenen visste fortfarande inte att du pratade med den. Vad händer när någon lär den att lyssna?

Läs Del 6: Hur man lär en sten att prata