Autocompletaren som inte visste att du var där
Del 5 avslutades med en sten som kunde läsa, skriva, se, höra och drömma. Den förstod bilder tillräckligt bra för att beskriva dem. Den förstod tal tillräckligt bra för att transkribera det. Den kunde generera konst som fick folk att sluta scrolla.
Men den visste fortfarande inte att du pratade med den.
GPT-3 var det mest kapabla AI-systemet någon hade byggt — och den trodde att den avslutade en webbsida. Alla labb i världen noterade det. Meta tränade enorma modeller och släppte dem som open source. NVIDIA byggde Megatron. Mistral dök upp i Frankrike. Hugging Face pratade om att träna en gigantisk community-modell. Pengar strömmade in. Men ingen matchade riktigt GPT-3:s generalitet. Decoder-arkitekturen hade vunnit — men det var fortfarande Total Roulett. Briljant ena stunden, självsäkert fel nästa.
Något måste förändras. Inte i arkitekturen — i träningen.
Att lära den svara
Idén var bedrägligt enkel: finjustera modellen till att vara en chatbot. Istället för att avsluta webbsidor, lär den att avsluta konversationer. Många forskare hade försökt — formaterat chattutskrifter så att modellen skulle lära sig det fram-och-tillbaka-mönstret. Det fungerade, typ. Modellen stannade i karaktären längre. Men den drev fortfarande iväg, hallucinerade fortfarande, gav fortfarande svar som ingen människa skulle tycka var hjälpsamma.
Genomslaget var RLHF — Reinforcement Learning from Human Feedback. 1 Träna en andra modell, en belöningsmodell, vars enda jobb är att svara på en fråga: "Skulle en människa gilla det här svaret?"
Upplägget speglar något från Del 5: när vi fick stenen att drömma använde vi CLIP för att bedöma BigGANs teckningar — en kritiker som styrde en skapare. RLHF är samma idé, fast för text. Språkmodellen genererar ett svar. Belöningsmodellen bedömer det. Språkmodellen uppdateras. Generera, bedöm, förbättra. Generera, bedöm, förbättra.
Resultatet var ChatGPT. Och över en natt förändrades allting.
Inte för att modellen var fundamentalt smartare — det var fortfarande GPT-3.5 under huven. Men för att den lyssnade. Du kunde ställa en fråga på vanlig svenska och få ett rakt svar. Ingen prompt engineering. Inga formateringsknep. Ingen låtsas att vara en webbsida.
Plötsligt styrbar. Plötsligt tillgänglig för alla med en webbläsare. Fortfarande liten, fortfarande farlig, fortfarande självsäkert fel på saker den inte borde vara — men användbar. Den asymmetri som byggde prompt engineering-industrin var nu tillgänglig för alla: när det fungerade sparade man timmar. När det inte gjorde det förlorade man trettio sekunder.
ChatGPT nådde 100 miljoner användare snabbare än någon produkt i historien. 2 Världen märkte det. Inte bara ingenjörer — alla.
Att ge den tid att tänka
Det fanns fortfarande ett problem. Modellen svarade reflexmässigt — som att be någon svara omedelbart, ingen betänketid. Bra på saker den "bara visste" från träningen. Usel på allt som krävde resonering.
Fråga GPT-3.5 en logisk gåta och den spottade självsäkert ur sig fel svar. Inte för att den inte kunde resonera — för att den aldrig fick tid att resonera. Varje token den genererade var en omedelbar magkänsla, inga kladdpapper tillåtna.
Forskare på Google hittade lösningen: chain-of-thought-prompting. 3 Istället för att hoppa till svaret, låt modellen resonera steg för steg. "Tänk på det här först, svara sedan."
Förbättringen var dramatisk. Problem som modeller fick fel reflexmässigt löste de när de fick utrymme att tänka. Och senare bakade OpenAI:s o1 5 in tänkandet direkt i modellen — den genererade resonemangs-tokens innan den svarade, som att klottra på ett anteckningsblock innan man skriver det riktiga svaret.
Det här var ett paradigmskifte. I åratal hade framsteg betytt större modeller tränade på mer data. Men internet är ändligt — man kan inte bara mata den med mer text. Den nya gränsen var inte större modeller. Det var smartare inferens — mer beräkningskraft vid svarstillfället, inte vid träningstillfället.
Att lära den sträcka sig
En chatbot som tänker är fortfarande en chatbot. Den kan bara arbeta med det som redan finns i dess vikter — det komprimerade minnet av allt den läste under träningen. Fråga om dagens väder och den berättar om klimatmönster. Fråga om en specifik person och den hallucinerar en trovärdig biografi.
Googles LaMDA 4 och Metas Toolformer 6 visade vägen ut: låt modellen använda verktyg. Istället för att svara enbart från minnet, låt den bestämma "jag behöver söka efter det här" — och faktiskt söka.
Modellen läser frågan. Inser att den inte vet svaret. Genererar ett tool call — en strukturerad förfrågan om att söka på webben, fråga en databas, kolla en kalender, läsa ett mejl. Får tillbaka resultatet. Integrerar det. Gör kanske ytterligare ett tool call. Svarar slutligen — med riktig, förankrad information.
Det här var ögonblicket då modellen slutade vara en textgenerator och blev en problemlösare. Inte bara prediktera nästa token — avgöra vilken handling den ska ta härnäst. Nästa token kanske är ett svar, eller så kanske det är ett funktionsanrop. Modellen lärde sig att sträcka sig ut i världen.
Stenen pratar
Vi lärde stenen att prata. Inte bara autocomplete — riktig konversation. Den lyssnar på vad du vill. Den tänker innan den talar. Den sträcker sig efter information den inte har.
Men en agent med verktyg är fortfarande en agent. Den kan söka, resonera och agera — men den jobbar ensam. Komplexa problem kräver mer än ett perspektiv. Riktigt arbete kräver planering, exekvering, granskning, iteration. Det kräver ett team.
Vi lärde stenen att prata. Att tänka innan den talar. Att sträcka sig efter det den inte vet. Men en agent är fortfarande en agent. Vad händer när den får ett team — och dyker upp på jobbet?