Datorn som slutade lyda order och började lära sig

Två sorters maskiner

I din dator bor numera två helt olika sorters maskiner. Den ena är den klassiska datorn: en lydig byråkrat som gör exakt det den får höra, miljarder gånger per sekund, utan att någonsin improvisera. Den andra är något nytt. En språkmodell som ingen har talat om vad den ska svara, men som ändå kan förklara, översätta, skriva kod och resonera.

Skillnaden mellan dem är inte gradvis. Det handlar om två fundamentalt olika sätt att få en maskin att göra något. För att förstå varför AI-genombrottet kom just nu, och varför det överraskade även experterna, behöver du se båda världarna. Vi börjar i den gamla.

En maskin som bara kan räkna

I botten av varje dator sitter processorn, CPU:n. Den är byggd av transistorer, mikroskopiska strömbrytare som antingen släpper igenom ström eller inte. Av eller på. Noll eller ett. En modern processor rymmer tiotals miljarder sådana strömbrytare på en kiselplatta stor som en tumnagel.

Allt en dator gör byggs av denna enkla grund. Genom att koppla ihop transistorer i smarta mönster får du kretsar som adderar tal, jämför värden och flyttar data. Mer än så kan en processor faktiskt inte. Den räknar, jämför och flyttar. Poängen är att den gör det ofattbart fort, flera miljarder operationer per sekund per kärna.

Bredvid processorn sitter arbetsminnet, RAM. Där ligger programmen och deras data medan de körs. Processorn hämtar en instruktion från minnet, utför den och hämtar nästa. Denna eviga loop — hämta, utför, upprepa — är hjärtslaget i varje dator du någonsin använt. Principen kallas von Neumann-arkitektur och har styrt datorbygget sedan 1940-talet.

Minnet är dessutom ordnat i en hierarki. Närmast processorn ligger små, blixtsnabba cacheminnen. Sedan kommer arbetsminnet, som är större men långsammare. Längst ut ligger lagringen, SSD-disken, som rymmer enormt mycket men är trög i jämförelse. Datorn jonglerar ständigt data mellan nivåerna, för en processor som väntar på data är en processor som slösar tid. Håll det i minnet, det blir viktigt när vi kommer till AI.

Språket vi byggde för att slippa ettorna

Instruktionerna som processorn hämtar är rader av ettor och nollor, så kallat maskinspråk. Det är det enda språk processorn förstår, och det ser likadant obegripligt ut för alla människor. De första programmerarna på 1940-talet skrev ändå sina program precis så, bit för bit. Det var långsamt och plågsamt felbenäget.

Första hjälpen blev assembler, ett lågnivåspråk där varje maskininstruktion fick ett kortnamn. ADD i stället för en sifferkod. Fortfarande exakt samma instruktioner, men läsbara för människor. Ett översättningsprogram gjorde om kortnamnen till ettor och nollor.

Det verkliga lyftet kom med högnivåspråken. Fortran 1957, senare C, Java och Python. Nu kunde du skriva något som liknar en blandning av matematik och engelska, och låta ett program kallat kompilator översätta alltihop till maskinspråk. En enda rad Python kan motsvara hundratals maskininstruktioner. Programmeraren klev uppåt i abstraktion, bort från kislet, närmare problemet.

Lägg märke till vad som är gemensamt för hela kedjan. På varje nivå talar du om för datorn exakt vad den ska göra. Programmeraren tänker ut logiken, datorn utför den, och blir resultatet fel är det logiken det är fel på. Detta är den deterministiska världen. Samma indata ger alltid samma utdata, och den har fungerat lysande i sjuttio år.

Men den har en gräns. Vissa saker kan ingen människa formulera som regler. Försök själv skriva instruktioner för hur man känner igen en katt på ett foto, eller för vad som är ett rimligt nästa ord i en mening. Det går inte. Reglerna finns inte att skriva ner. Det var där den andra världen tog vid.

Grafikkortet som bytte karriär

Först en omväg via dataspelen. En CPU har några få kärnor, ofta åtta eller sexton, och varje kärna är snabb, flexibel och byggd för att hantera vad som helst. Det passar vanliga program, där instruktionerna ofta beror på varandra och måste köras i tur och ordning.

Dataspel behövde något annat. En skärmbild består av miljoner pixlar, och varje pixels färg kan beräknas oberoende av alla andra. Grafikkorten, GPU:erna, utvecklades därför åt motsatt håll: tusentals små, enkla kärnor som räknar samtidigt. Var och en är långsammare än en CPU-kärna, men tillsammans mal de igenom enorma mängder likartade beräkningar.

Runt 2010 upptäckte AI-forskarna att det var precis vad de behövde. Att träna neurala nätverk består nämligen nästan uteslutande av matrisberäkningar, miljontals multiplikationer och additioner som kan utföras parallellt. Spelhårdvaran blev vetenskapens viktigaste verktyg, och grafikkortstillverkaren Nvidia växte till ett av världens högst värderade företag. Dagens AI-grafikkort har dessutom extremt snabbt minne alldeles intill beräkningskärnorna, just för att slippa flaskhalsen där processorn väntar på data.

Nätverket som lär sig av sina misstag

Ett neuralt nätverk är löst inspirerat av hjärnan, men det är ingen hjärnkopia. Tänk dig i stället ett stort nät av räkneenheter, neuroner, ordnade i lager. Varje neuron tar emot tal från neuronerna i lagret före, multiplicerar varje tal med en egen vikt, summerar alltihop och skickar resultatet vidare till nästa lager.

Vikterna är hela hemligheten. De är nätverkets kunskap. Ett nystartat nätverk har slumpmässiga vikter och svarar rent nonsens. Träningen går ut på att justera vikterna tills svaren blir bra, och det sker genom en förbluffande enkel princip: lär av misstagen.

Nätverket får ett exempel med känt facit. Det gissar. Gissningen jämförs med facit och felet mäts. Sedan räknar en algoritm ut hur mycket varje enskild vikt bidrog till felet och knuffar den en aning i rätt riktning. Metoden kallas bakåtpropagering och beskrevs i sin moderna form 1986 av David Rumelhart, Geoffrey Hinton och Ronald Williams. Upprepa proceduren miljontals gånger, och nätverket har lärt sig något som ingen människa formulerat som en regel.

Idén är gammal. Redan 1958 byggde psykologen Frank Rosenblatt sin perceptron, ett enkelt nätverk som kunde lära sig skilja på mönster. Men i decennier saknades två avgörande ingredienser: tillräckligt med exempel att lära av och tillräckligt med räknekraft att lära med. Internet löste det första. Grafikkorten löste det andra. När Geoffrey Hinton tillsammans med John Hopfield fick Nobelpriset i fysik 2024 var det för upptäckter som gjorts årtionden tidigare, men som först nu fått sin fulla verkan.

När språket blev matematik

Ett neuralt nätverk räknar med tal. Hur får du in språk i något sådant? Det sker i två steg. Först huggs texten upp i tokens, små bitar som ungefär motsvarar ord eller orddelar. Ordet "fotbollsplan" kan bli två tokens, "fotbolls" och "plan". Sedan översätts varje token till en lång rad tal, en vektor, som kallas inbäddning.

Det fiffiga är att talraderna inte är slumpmässiga. Under träningen sorterar sig orden så att ord med liknande betydelse hamnar nära varandra i en matematisk rymd med tusentals dimensioner. Kung ligger nära drottning, Stockholm nära Göteborg. Betydelse har blivit geometri, och därmed något ett nätverk kan räkna på.

En språkmodell är ett neuralt nätverk tränat på en enda uppgift: gissa nästa token. Modellen får en textbit och ska förutsäga vad som kommer härnäst. Facit finns gratis i texten själv, det är ju bara nästa ord. Därför kan modellen träna på i princip all text som finns, utan att människor behöver märka upp någonting.

Genombrottet kom 2017, när forskare på Google publicerade arkitekturen Transformer i artikeln "Attention Is All You Need", med Ashish Vaswani som försteförfattare. Dess kärna är uppmärksamhetsmekanismen. När modellen ska gissa nästa ord kan den vikta hur relevant vart och ett av de tidigare orden är för just den gissningen. I meningen "Hunden jagade bollen tills den punkterade" hjälper uppmärksamheten modellen att koppla "den" till bollen snarare än hunden. Och avgörande för fortsättningen: hela arkitekturen är byggd av matrisberäkningar som kan köras parallellt. Den passar grafikkorten som handen i handsken.

Gissningsmaskinen i gigantisk skala

En stor språkmodell, LLM efter engelskans large language model, är i grunden just detta: en transformer med enormt många vikter, tränad på enorma mängder text. GPT-3 från 2020 hade 175 miljarder vikter, eller parametrar som de kallas. Dagens ledande modeller tros vara betydligt större och tränas på biljontals tokens, motsvarande många miljoner böcker.

Skalan är svår att ta in. Enligt forskningsinstitutet Epoch AI har beräkningsmängden för att träna de främsta modellerna vuxit med fyra till fem gånger per år sedan 2020. Kostnaden för en träning har vuxit med två till tre gånger per år, och de största träningarna väntas passera en miljard dollar 2027. Elbehovet fördubblas årligen. Träningen sker i datacenter där tiotusentals grafikkort arbetar tillsammans i månader.

På vägen hände något oväntat. När modellerna växte dök förmågor upp som ingen tränat dem på. En modell som bara lärt sig gissa nästa ord visade sig plötsligt kunna översätta mellan språk, sammanfatta dokument, skriva fungerande kod och lösa logiska problem. Förklaringen är lika enkel som svindlande: för att gissa nästa ord riktigt bra i all världens text räcker det inte att kunna stavning och grammatik. Modellen tvingas fånga mönstren bakom texten — fakta, sammanhang, orsakssamband, till och med något som liknar resonemang.

Sista steget är finslipningen. Råmodellen tränas vidare med mänsklig återkoppling, där människor betygsätter olika svar och modellen justeras mot det hjälpsamma och sanningsenliga. Metoden kallas RLHF, förstärkningsinlärning från mänsklig återkoppling. Det är den som förvandlar en ren textgissare till en assistent du kan samtala med.

Vad som händer när du trycker på retur

Träningen är den dyra delen, men den sker en gång. När du sedan chattar med modellen händer något annat, som kallas inferens. Din fråga huggs upp i tokens och skicks genom hela nätverket i en enda framåtpassning. Ut kommer inte ett svar, utan en sannolikhetsfördelning: ett tal för varje möjlig nästa token i modellens ordförråd, ofta runt hundratusen kandidater.

Modellen väljer en token ur fördelningen, klistrar fast den på texten och kör alltihop genom nätverket igen. Och igen. Varje ord i svaret du läser är en egen vända genom miljarder beräkningar. Det är därför svaren växer fram ord för ord på skärmen. Det är ingen grafisk effekt, det är så maskinen faktiskt arbetar.

Valet ur fördelningen är dessutom lite slumpmässigt med flit. En inställning som kallas temperatur styr hur vågat modellen väljer. Låg temperatur ger förutsägbara, säkra svar. Högre temperatur ger variation och kreativitet, men också större risk för avstickare. Det förklarar varför samma fråga kan ge olika svar, något som vore otänkbart i den deterministiska världen.

Men i grunden gissar den fortfarande. Varje ord du får från en språkmodell är resultatet av en sannolikhetsberäkning, inte ett uppslag i en databas. Det är därför modeller ibland hallucinerar, alltså levererar självsäkra påståenden som är fel. Inifrån modellen ser en plausibel gissning likadan ut som en sann. Samtidigt har mängden text modellen kan hålla i huvudet, kontextfönstret, vuxit explosionsartat, enligt Epoch AI med ungefär trettio gånger per år sedan 2023. Dagens modeller kan läsa hela böcker i ett svep innan de börjar svara.

En ny sorts ingenjörskonst

Här står vi alltså. Ingen enskild människa förstår i detalj varför en stor språkmodell svarar som den gör. Vikterna, hundratals miljarder tal, är inte skrivna av någon. De har vuxit fram ur träningen. Forskare studerar numera färdiga modeller ungefär som biologer studerar organismer, med experiment och mätningar, i ett fält som försöker öppna den svarta lådan inifrån.

Det är själva skiftet. I sjuttio år byggde vi maskiner vi förstod, rad för rad, instruktion för instruktion. Nu odlar vi maskiner vars förmågor vi upptäcker i efterhand. Den deterministiska datorn är inte borta, tvärtom. Det är fortfarande den som utför själva beräkningarna, exakt och blixtsnabbt som alltid. Men ovanpå den har vi byggt något som ingen programmerat.

Nästa gång en AI svarar dig kan du tänka på vad som faktiskt sker: miljarder transistorer utför matrismultiplikationer genom ett nätverk vars kunskap ingen har skrivit, för att gissa vilket ord som borde komma härnäst. Att det fungerar, och fungerar så bra, är en av teknikhistoriens märkligaste upptäckter.

Källor

- Vaswani, A. m.fl. (2017). Attention Is All You Need. Google Brain, presenterad vid NeurIPS 2017. - Rumelhart, D., Hinton, G. & Williams, R. (1986). Learning representations by back-propagating errors. Nature, 323. - Brown, T. m.fl. (2020). Language Models are Few-Shot Learners. OpenAI, NeurIPS 2020. - Kungl. Vetenskapsakademien (2024). Nobelpriset i fysik 2024: John Hopfield och Geoffrey Hinton. - Epoch AI (2024–2026). Trends in Artificial Intelligence samt How much does it cost to train frontier AI models? (epoch.ai)

Vad tyckte du om artikeln?