50% av forskarnas slutsatser håller inte

Sju år av granskning

Projektet heter SCORE – Systematizing Confidence in Open Research and Evidence. Under sju år har 865 forskare från hela världen analyserat nära 3 900 vetenskapliga artiklar. Artiklarna kom från 62 ledande tidskrifter inom samhällsvetenskap: ekonomi, psykologi, utbildningsvetenskap, statsvetenskap och sociologi.

Tanken var enkel: ta redan publicerade resultat och försök göra om experimenten. Se om svaren blir desamma.

Av de 164 studier man faktiskt testade gick bara hälften – 49 procent – att bekräfta. Resultaten höll inte när oberoende forskargrupper försökte upprepa dem.

Vad innebär det att en studie "inte kan replikeras"?

Replikation är ett grundkrav i vetenskap. Det betyder att andra forskare, med samma metod, ska kunna nå samma slutsats. Om de inte kan det är resultatet osäkert. Det kan bero på slump, på metodfel, på att ursprungsforskarna (medvetet eller omedvetet) valde hur de tolkade sina data.

Det är inte alltid fusk. Ofta är det mer subtilt: forskaren publicerar den version av resultaten som ser bäst ut, väljer vilka mätpunkter som räknas, eller testar så länge tills ett positivt resultat dyker upp. Det kallas p-hacking och publication bias.

Problemet är att ingen av dessa brister syns i den färdiga artikeln.

Ingen kan avgöra vilka studier som håller

Det mest oroande med SCORE-studien är inte att hälften av studierna inte håller. Det är att det inte finns något enkelt sätt att veta vilken halvdel det rör sig om.

Forskarna testade om det gick att förutsäga vilka studier som skulle klara replikation – baserat på studiekvalitet, tidskrift, ämne, antal deltagare. Inget av dessa faktorer visade sig vara till pålitlig hjälp.

Bara en faktor spelade en tydlig roll: om ursprungsforskarna hade delat med sig av sina rådata och sin kod. Av de studier som gjort detta klarade sig en mycket högre andel. Men bara en tredjedel av studierna i urvalet hade gjort det.

Det är inte ett litet problem

Replikationskrisen är känd sedan länge inom psykologin. En banbrytande studie 2015 visade att bara 36 procent av psykologiska studier gick att replikera. Men många trodde att det var ett psykologiproblem – att just den disciplinen var speciellt drabbad.

SCORE-studien visar att det inte stämmer. Problemet är lika stort i ekonomi, i statsvetenskap, i sociologi. Det är ett systemproblem.

Det spelar roll långt utanför universiteten. Politiska reformer, pedagogiska metoder och folkhälsokampanjer bygger ofta på samhällsvetenskaplig forskning. Om hälften av den forskningen inte håller vid granskning borde det påverka hur vi läser och använder den.

Vad gör vi nu?

Det pågår en förändring. Allt fler tidskrifter kräver nu att forskare registrerar sin studie i förväg – alltså bestämmer metod och hypotes innan data samlas in, så att de inte kan ändra upplägget i efterhand. Krav på öppna data börjar också bli vanligare.

Men förändringen går långsamt. Incitamenten i forskarvärlden belönar fortfarande sensationella resultat framför noggranna sådana. En ny, spännande studie ger publiceringar och karriärpoäng. En replikationsstudie – som oftast bara bekräftar eller ifrågasätter gamla resultat – ger sällan lika mycket uppmärksamhet.

Det vetenskapliga löftet håller – om vi håller det

Det vore fel att dra slutsatsen att vetenskap inte fungerar. Det vore att missförstå vad vetenskap är. Vetenskap är inte ett system som levererar säkra svar vid första försöket. Det är ett system för att korrigera sig självt över tid.

SCORE-projektet är självt ett bevis på det. Det är vetenskap som granskar vetenskapen.

Men det ställer krav på dig som läsare också. Nästa gång du läser en rubrik som börjar med "Forskning visar att..." – fråga dig: har det bekräftats av fler än ett team? Finns datan tillgänglig? Har det publicerats i en tidskrift som kräver förregistrering?

Hälften av gångerna du ställer de frågorna kan svaret vara nej.