Varför AI-genererad text och kod måste faktagranskas — ett forsknings­experiment bevisar poängen

Personer som granskar resultatet av mjukvara. En person håller ett förstoringsglas.

Det låter som en sketch: en forskare hittar på en sjukdom, ger den ett löjligt namn och publicerar uppenbart fejkade studier fyllda med referenser till Sagan om ringen och Professor Sideshow Bob.

Inom några veckor behandlar världens mest använda AI-chatbotar sjukdomen som verklig och rekommenderar folk att uppsöka ögonläkare. Men det är ingen sketch. Det är ett forskningsexperiment, och resultatet borde få oss alla att fundera några varv.

Min vän Almira Osmanovic Thunström, vid Göteborgs universitet, skapade "bixonimania”. Det är en påhittad ögonåkomma, och laddade upp två falska studier till en preprintserver. Studierna var fyllda med varningsflaggor som borde ha fångats upp av vem som helst som faktiskt läste dem. Trots det tog stora språkmodeller som ChatGPT, Gemini, Copilot och Perplexity informationen rakt av och presenterade den som medicinsk fakta för sina användare.
Kanske ännu mer oroande så citerades de fejkade studierna sedan i riktiga, peer-reviewade tidskrifter. Det tyder på att forskare förlitar sig på AI-genererade underlag utan att kontrollera källorna.

Det handlar inte bara om medicin

Det är lätt att avfärda det här som ett kuriosum inom medicinsk forskning. Men problemet är mycket bredare. Samma mekanismer som fick AI att acceptera en påhittad sjukdom gäller överallt där språkmodeller producerar innehåll. Det kan handla om kod, marknadsföringstexter, produktbeskrivningar och teknisk dokumentation.

Inom webbutveckling och innehållsproduktion har olika AI-verktyg snabbt blivit standard. Kodassistenter autokompletterar hela funktioner. Copywriters låter chatbotar dra ihop utkast på minuter istället för den manuella processen som tar flera timmar. SEO-texter, landningssidor, bildbeskrivningar, nyhetsbrev, allt kan genereras i ett tempo som var otänkbart för några år sedan.

Vad är workslop? AI-producerad text och kod som ingen tar ansvar för

Men det finns en baksida som sällan diskuteras: tempot i sig uppmuntrar till att hoppa över granskningen. Resultatet har fått ett eget begrepp i workslop. Det beskriver det AI-genererade innehåll som ingen egentligen har läst, kontrollerat eller tagit ansvar för innan det publicerades, skickades iväg eller sattes i produktion. Det är inte illvilja, det är slapphet förklädd till effektivitet.

Tänk dig att en AI-assistent hämtar ett kodbibliotek, en funktion eller en konfigurationsrekommendation från material som ser professionellt och trovärdigt ut, men som i själva verket är felaktigt eller rentav skadligt. Det behöver inte ens vara en medveten attack. Det räcker med att felaktig information har publicerats i ett format som ser trovärdigt ut. Som ett blogginlägg, ett Stack Overflow-svar eller en README-fil. Då kan språkmodellen ta det på allvar och föra det vidare.

Det finns redan dokumenterade fall där AI-kodassistenter föreslår paketnamn som inte existerar, vilket öppnar dörren för så kallade supply chain-attacker. Det kan vara att en angripare registrerar det påhittade paketnamnet, fyller det med skadlig kod och väntar på att nästa utvecklare blint kör npm install. Mönstret är detsamma som i bixonimania-experimentet då modellen fyller i det den tror borde finnas, oavsett om det stämmer.

Inom innehållsproduktion ser vi samma dynamik. Blogginlägg som bygger på AI-genererade "fakta" utan källkontroll. Produkttexter som upprepar påståenden som låter bra men faktiskt saknar grund. Hela serier av artiklar som i praktiken är workslop publiceras för att de var snabba att ta fram, inte för att de var korrekta eller bidrar med något av värde. Den som anlitar en AI för att skriva medicinsk rådgivning, en juridisk sammanfattning eller en teknisk guide och sedan publicerar resultatet utan granskning gör i princip samma sak som de forskare som citerade bixonimania-studien och förlitar sig på tur istället för att läsa på.

Det jag kan tycka är det mest förrädiska är att löftet om effektivisering och snabbhet också kan bli precis det som gör oss (ännu) slarvigare. När ett verktyg levererar ett svar på sekunder uppstår en kognitiv genväg. Resultatet kommer snabbt, ser ofta ganska rimligt ut och känns rätt.
Och när en deadline hänger över en är det förstås frestande att acceptera förslaget, merga pull requesten eller publicera texten utan att göra de där kontrollerna som kanske behövs.

Men snabbhet utan kvalitetssäkring är faktiskt inte effektivitet. Snarare är det en skuld som förr eller senare kommer att krävas in i form av att felaktig information spridits, säkerhetshål som exploateras eller ett varumärke som tappar trovärdighet.

Vad kan vi göra?

Den viktigaste insikten är knappast ny. Granska alltid källorna! Det gäller oavsett om du får ett medicinskt råd, en faktauppgift till en artikel eller ett kodförslag från en AI. Ifall det är ett ämnesområde du inte behärskar blir det förstås knepigt eftersom det kan bli utmanande att ens rimlighetsbedöma saker. Då behöver du i vanlig ordning prata med en specialist på området eller själv göra ganska mycket efterforskningar.

Det går så klart att använda språkmodeller som ett startskott, men inte som en slutgiltig sanning.

  • Kontrollera påståenden mot primärkällor.
  • Kör inte okänd kod utan att förstå vad den gör.
  • Inför kodgranskningsrutiner (om du inte redan har dem).
  • Behandla genererad kod med samma tveksamhet som ett bidrag från en helt ny kollega.
  • Var skeptisk till de genererade svar du får.

Bygg in validering i ditt arbetsflöde som motverkar workslop. Det kan vara så enkelt som en checklista. Nedan tre förslag kan vara utgångspunkter beroende på vad det nu är du använder generativ AI till:

  1. Har jag verifierat faktapåståendena?
  2. Finns paketet jag återanvänder på riktigt?
  3. Är källan som citeras äkta och säger den vad jag påstår?

Ja, det går att argumentera för att generativ AI som utgångspunkt i en kreativ process skapar medelmåttiga resultat, men det är en annan diskussion. Nu pratar vi om kvalitetssäkring.<br>Den här tiden du lägger på kontroll är inte ett hinder för effektivitet. Däremot är det förutsättningen för att det du producerar ska vara värt något och hållbart över tid.

Almiras experiment visar tydligt att dagens AI-system saknar förmågan att skilja trovärdig forskning från uppenbart nonsens, så länge som nonsensen är förpackad i rätt format. Den insikten bör följa med oss varje gång vi använder ett AI-genererat förslag.

Läs mer i artikeln hos Nature.com — Scientists invented a fake disease. AI told people it was real och följ Almiras olika upptåg.


Relaterat innehåll