Hur fungerar AI? En tydlig förklaring av maskininlärning, neurala nätverk och stora språkmodeller

Artificiell intelligens är ett samlingsnamn för teknologier som låter datorprogram utföra uppgifter som normalt kräver mänsklig intelligens. Det handlar inte om robotar med känslor eller medvetande — utan om mjukvara som identifierar statistiska mönster i data och agerar utifrån dem.

AI finns överallt: spam-filtret i din e-post, ansiktsigenkänningen på din telefon, filmrekommendationer på Netflix och röststyrning i bilen. Det gemensamma är att ingen människa skrivit explicita regler för varje situation. Istället har systemen lärt sig från data.

Den här guiden förklarar hur det faktiskt fungerar — från grundläggande definitioner till hur ChatGPT genererar ett svar token för token.

AI-fältet delas traditionellt in i tre breda tekniker: maskininlärning, djupinlärning och generativ AI. Dessa är inte konkurrenter utan en hierarki: djupinlärning är en specialform av maskininlärning, och generativ AI är en tillämpning som typiskt bygger på djupinlärning. Att förstå dessa tre lager räcker långt för att begripa vad som sker bakom kulisserna.

Vad är AI? En definition utan krångel

Artificiell intelligens definierades som begrepp 1956 av John McCarthy, som myntade termen vid Dartmouth-konferensen. Hans definition: “vetenskapen och tekniken att skapa intelligenta maskiner.” Artificiell intelligens täcker sedan dess ett brett fält av metoder och system — från regelbaserade expertsystem till moderna neurala nätverk och stora språkmodeller.

En enklare operativ definition: AI är datorprogram som kan uppfatta sin omgivning, bearbeta information och agera för att uppnå ett mål — utan att varje steg är explicit programmerat av en människa.

Viktigt att förstå från start: AI saknar medvetande, känslor och genuint tänkande. När din telefon känner igen ditt ansikte jämför den numeriska mönster i pixlar med lagrad data — den “tänker” inte på det sätt en människa gör.

AI delas ofta in i:

Snäv AI (narrow AI/svag AI): system specialiserade på en uppgift. Schackprogrammet Deep Blue, som besegrade Garry Kasparov 1997, är ett klassiskt exempel på svag AI — det kan bara spela schack.
Artificiell generell intelligens (AGI): hypotetiska system som kan lära sig och lösa godtyckliga problem som en människa. AGI existerar ännu inte.

Praktiskt sett är all AI vi använder idag snäv AI. Alla AI-verktyg — från ChatGPT till bildigenkänning — är specialiserade system som inte kan generalisera utanför sin träningsdomain.

Från regler till inlärning: maskininlärningens revolution

Tidig datorvetenskap byggde på regelbaserade system: programmerare formulerade explicita if-then-instruktioner för varje tänkbar situation. Det fungerade i trånga, väldefinierade domäner — men skalade inte.

På 1970- och 80-talen kom expertsystem: databaser med tusentals regler baserade på mänsklig expertkunskap. MYCIN, ett medicinskt expertsystem från Stanford på 1970-talet, kunde diagnosticera blodinfektioner med god träffsäkerhet. Ändå var begränsningen tydlig: hur skriver man regler för att känna igen en hund i ett foto? Det går inte — för många undantag, nyanser, kontexter.

Maskininlärning löste det problemet. Istället för att skriva regler tränas systemet på stora mängder exempeldata och lär sig av data på egen hand — utan att vara explicit programmerad för varje situation.

Principen: mata algoritmen med tusentals foton märkta “hund” eller “inte hund”. Algoritmen justerar gradvis sina interna parametrar tills den kan skilja dem åt med hjälp av statistiska mönster. Inga algoritmer berättar vad som definierar en hund — systemet hittar mönstren i pixlarna självt.

Maskininlärning och djupinlärning är inte synonymer, trots att de ofta blandas ihop. Klassisk maskininlärning kräver att en människa väljer ut vilka egenskaper (features) som är relevanta för uppgiften — djupinlärning identifierar relevanta egenskaper automatiskt från rådata.

Tre varianter av maskininlärning används ofta:

Supervised learning: modellen tränas med märkt data. Rätt svar ges under träning. Används för bildigenkänning, spam-filter, diagnostik.
Unsupervised learning: inga märkningar. Modellen hittar struktur i omärkt data — till exempel klustring av kundgrupper.
Reinforcement learning: modellen lär sig via belöning och straff, som att träna ett spel-AI att maximera poäng.

Maskininlärning är inte ny — grunderna lades på 1980-90-talen — men det var kombinationen av tre faktorer runt 2010-2016 som gav tekniken genombrott: internet skapade enorma datamängder, GPU:er (ursprungligen för spel) möjliggjorde massiv parallellberäkning, och forskarnas algoritmer förbättrades dramatiskt.

Neurala nätverk: hjärninspirerade matematiska strukturer

Djupinlärning är en underkategori av maskininlärning och den teknik som driver de mest imponerande AI-systemen idag. Den bygger på artificiella neurala nätverk — matematiska strukturer inspirerade av biologiska neuroner. Så här fungerar neurala nätverk: input bearbetas i lager av noder som var och en tillämpar matematiska transformationer, och resultatet propageras framåt genom nätverket.

Abstrakt illustration av djupa neurala nätverkslager med indigo-till-cyan energiflöde

Ett neuralt nätverk består av lager med noder (neuroner):

Inputlager: tar emot rådata (pixelvärden, ordtoken, mätvärden)
Dolda lager: bearbetar och transformerar data i successiva steg
Outputlager: producerar resultatet (ett klassen-label, ett nästa token, en sannolikhet)

Varje koppling mellan noder har en vikt — ett numeriskt värde (viktad koppling) som bestämmer hur starkt signalen förs vidare. Under träningen justeras dessa vikter iterativt med en metod kallad bakåtpropagering (backpropagation) kombinerad med gradient descent: nätverket gör en förutsägelse, jämför med rätt svar, beräknar felet, och justerar de viktade kopplingarna i riktning mot lägre fel. Processen upprepas miljontals gånger på miljarder datapunkter.

“Djup” i djupinlärning syftar på antalet dolda lager — moderna modeller har hundratals till tusentals lager. Ju fler lager, desto mer abstrakt representation kan nätverket bygga upp. Ett tidigt lager kan lära sig att känna igen kanter i en bild; ett senare lager kombinerar kanter till former; ett ännu senare lager kombinerar former till ett ansikte.

Djupinlärning kräver tre saker: stora datamängder, kraftfull hårdvara (GPU:er), och rätt arkitektur. När alla tre kombinerades runt 2012 tog teknikens prestanda ett språng som förvånade hela forskningsfältet — felfrekvensen i bildigenkänningstävlingar halverades nästan över en natt.

AI i praktiken: vad tekniken används till idag

Moderna AI-tillämpningar bygger på kombinationer av ovanstående tekniker. Några konkreta exempel:

Naturlig språkbehandling (NLP) — det tekniska fältet bakom chatbotar, maskinöversättning och röstassistenter. Google Translate, Siri och ChatGPT bygger alla på NLP-modeller. NLP kombinerar maskininlärning med lingvistik för att bearbeta och generera mänskligt språk.

Bildigenkänning — djupinlärning på bilddata. Används i sjukvård för att analysera röntgenbilder, i bilindustrin för att identifiera objekt i realtid, och i din telefons kamera för ansiktsigenkänning.

Rekommendationssystem — ML-modeller som analyserar beteendemönster. Netflix, Spotify och e-handelsplattformar använder sådana modeller för att förutsäga vad du troligtvis vill titta på, lyssna på eller köpa härnäst.

Autonoma system — kombinerar bildigenkänning, sensorfusion och reinforcement learning. Självkörande bilar som Teslas AutoPilot bearbetar kameradata, radar och lidar i realtid och fattar körbeslut utan att varje situation är förprogrammerad.

Det gemensamma för alla dessa tillämpningar: de är snäv AI. Var och en klarar sin specifika uppgift — men ingenting utanför den.

Stora språkmodeller: hur ChatGPT genererar text

Stora språkmodeller (LLM — Large Language Model) är den teknik bakom ChatGPT, Claude och Gemini. De tillhör generativ AI: system som skapar nytt innehåll snarare än att bara klassificera befintligt.

En LLM tränas på enorma textmängder — hundratals miljarder ord från textdata på internet, böcker och artiklar. Under träningen lär sig modellen egentligen en enda grunduppgift: förutsäga nästa ord (förutsäga nästa ord i en sekvens). Tränas på data i tillräcklig skala uppstår förmågor som inte explicit programmerats: resonemang, översättning, kodskrivning, svarsgenerering. OpenAI:s ChatGPT är det mest kända exemplet — en LLM med miljarder parametrar tränad på en stor del av det skrivna internet.

Vad är en token?

LLM:er bearbetar inte text tecken för tecken. De delar upp texten i tokens — textbitar som kan vara ord, orddelar eller interpunktion. “Maskininlärning” kan bli två tokens: “maskin” och “inlärning”. GPT-4 har ett ordförråd på ungefär 100 000 tokens.

Varje token konverteras till ett numeriskt embedding — en lång lista med siffror som representerar tokens innebörd och relation till andra tokens i modellens bearbetning.

Transformer-arkitekturen på lekmannaspråk

Grunden för moderna LLM:er är transformer-arkitekturen, som Google-forskare introducerade 2017 i artikeln “Attention Is All You Need”. Kärnan är självuppmärksamhet (self-attention): mekanismen låter modellen väga hur relevant varje token är i förhållande till alla andra tokens i kontexten — oavsett var i texten de befinner sig.

I praktiken innebär det att modellen kan förstå att “den” i meningen “Elsa gillar att programmera, och den sysslar med det varje dag” syftar på Elsa — inte på programmering — för att hela kontexten vägs in samtidigt.

Steg för steg: hur ett svar genereras

Din fråga delas upp i tokens
Varje token konverteras till ett numeriskt embedding
Transformer-nätverket bearbetar alla tokens via självuppmärksamhet — bygger en kontextuell representation
Modellen beräknar en sannolikhetsfördelning: “Vilket token bör komma härnäst?” Alla 100 000 tokens i ordförrådet tilldelas en sannolikhet — sannolikhet för nästa token summerar alltid till 100 %
Ett token väljs — vanligen bland de med hög sannolikhet, med lite inbyggd slumpmässighet (kallat temperatur)
Det valda tokenet läggs till kontexten, och processen börjar om från steg 3
Generationen fortsätter tills ett stoppsignal nås

Varje ord du ser i ett ChatGPT-svar har alltså genererats ett token i taget, utifrån sannolikhetsberäkningar — inte hämtats ur en faktadatabas.

Generativ AI för bild: diffusionsmodeller

Bildgenererande AI som DALL-E, Midjourney och Stable Diffusion fungerar annorlunda än textmodeller. De bygger på diffusionsmodeller: ett matematiskt ramverk för att generera bilder.

Träningsprocessen går ut på att lära sig att “återställa” en bild som stegvis störts ut med brus. Modellen tränas på miljoner par av bild och textbeskrivning. Den lär sig sambandet mellan vad en text säger och vilka pixelmönster som hör till det.

Vid generering sker processen omvänt: modellen börjar med rent brus och “avbrusar” stegvis, styrd av textprompten, tills en koherent bild framträder. Varje steg i avbrusningen guidar bilden mot att matcha det texten beskriver.

Processen tar typiskt 20–50 steg av successiv avbrusning, vilket förklarar varför bildgenerering tar ett par sekunder snarare än att vara omedelbar.

Det finns också en viktig distinktion mellan diskriminativ och generativ AI. Diskriminativ AI klassificerar — “är det här en katt eller en hund?” Generativ AI kan skapa generativt innehåll — text, bild, ljud — utifrån en prompt. Moderna verktyg som ChatGPT och Midjourney är generativa, medan klassiska spam-filter och bildigenkänning är diskriminativa.

Begränsningar: hallucinationer, bias och vad AI inte klarar

Varför AI hallucinerar

Begränsningar med AI är viktiga att känna till för alla som använder verktygen. Hallucinationer — när en AI presenterar felaktig information med full säkerhet — är inte en bugg utan en direkt konsekvens av hur LLM:er fungerar. Modellen väljer nästa token baserat på sannolikhet, inte sanning. Den har inget inbyggt system för att verifiera om en utsaga stämmer med verkligheten.

Om modellen har sett mönstret “Den franska revolutionen startade år…” tusentals gånger följt av “1789” i träningsdatan, genererar den “1789” — inte för att den “vet” det, utan för att det statistiskt är sannolikt. Om ett faktum är ovanligt i träningsdatan kan modellen generera ett plausibelt-klingande token-sekvens som råkar vara fel.

Karolinska Institutets bibliotek kallar fenomenet maskinsplaining — modellen svarar med auktoritativ ton oavsett om svaret är rätt eller fel. Termen stokastisk papegoja används i forskarvärlden för att beskriva hur LLM:er imiterar mänskligt språk utan att förstå det. Mänskliga hjärnan fungerar helt annorlunda: den verifierar utsagor mot inlagrad faktakunskap och episodiskt minne — en förmåga LLM:er saknar.

Bias i träningsdata

AI-modeller är inte bättre än den data de tränats på. Träningsdata avgör vad modellen lär sig — om träningsdatan innehåller skevheter reproducerar modellen dem. Ett klassiskt exempel: ansiktsigenkänningssystem som tränades på dataset med övervikt av ljus hudton presterade signifikant sämre på mörka hudtoner — inte för att tekniken är diskriminerande av princip, utan för att träningsdatan var skev.

Samma logik gäller textmodeller: om träningsdatan overrepresenterar vissa perspektiv, geografier eller demografier, speglas det i modellens output.

Vad händer när träningsdatan tar slut?

LLM:er har ett kunskapsstopp — de känner inte till händelser efter att träningen avslutades. ChatGPT-4:s träningsdata har ett stopp kring april 2023. Modellen kan inte lära sig nytt kontinuerligt utan måste tränas om. Det förklarar varför AI-verktyg ibland svarar felaktigt om aktuella händelser.

Tekniken retrieval-augmented generation (RAG) är ett sätt att delvis kringgå detta: modellen kopplas till en extern databas och hämtar aktuell information innan den genererar svar. Det förändrar dock inte grundproblemet — modellen kan fortfarande inte förstå information, bara bearbeta den statistiskt.

Vad nuvarande AI faktiskt inte klarar

Nuvarande AI:

Har inget minne mellan separata konversationer (om inte explicit lagring implementeras)
Kan inte lära sig nytt efter att träningen är klar
Kan inte resonera på riktigt — det som liknar resonemang är sofistikerad mönsterigenkänning
Har ingen vilja, intention eller medvetande
Kan inte generalisera till helt nya domäner utanför sin träning

Det är skillnaden mot AGI — artificiell generell intelligens — som fortfarande är ett hypotetiskt mål, inte en verklighet.

Vanliga frågor om hur AI fungerar

Vad är skillnaden mellan AI och maskininlärning? Maskininlärning är en metod inom AI. AI är det bredare begreppet för system som imiterar mänsklig intelligens. All maskininlärning är AI, men inte all AI är maskininlärning — regelbaserade system är också AI.

Varför hittar AI på saker som inte stämmer? Stora språkmodeller väljer nästa token baserat på statistisk sannolikhet, inte på faktakontroll. Modellen kan generera övertygande men felaktiga svar när träningsdatan är tunn eller när ett mönster leder fel.

Kan AI verkligen tänka? Nuvarande AI saknar medvetande och genuint tänkande. Det som liknar förståelse är avancerad mönsterigenkänning i gigantiska datamängder. Frågan om maskinmedvetande är filosofiskt komplex och obesvarad.

Vad är tokens i AI? Tokens är de grundenheter som LLM:er använder för att bearbeta text — vanligtvis ord eller orddelar. ChatGPT-4 använder ett ordförråd på ungefär 100 000 tokens. Prissättning för API-anrop baseras på antal tokens in och ut.