Att ta hänsyn till slumpens inverkan

Viktigt budskap

  • Man måste ta hänsyn till slumpens inverkan när man bedömer hur stor tillit man kan ha till den dokumentation som finns.

Slumpens inverkan och ”stora talens lag”

För att behandlingsstudier ska bli tillförlitliga måste forskarna förebygga felkällor i studiernas upplägg, mätmetoder, analys, tolkning och resultatrapportering – så kallade systematiska fel. Problem som de inte har lyckats förhindra måste också hanteras. Klarar man inte att uppfylla dessa grundkrav, spelar det ingen roll hur mycket man räknar och vrider och vänder på resultaten. Studien blir ändå missvisande. Detta är allvarligt och kan till och med vara livsfarligt (se Nytt – men är det bättre? och Vårdens metoder håller inte alltid vad de lovar). Men även om forskarna lyckas undvika systematiska fel, finns fortfarande risken att de blir lurade av slumpen.

Alla vet att när man singlar slant ett antal gånger, så kan det ju hända att man får krona eller klave flera gånger i följd. Och alla förstår att ju fler gånger man singlar slanten, desto sannolikare är det att man till slut har fått krona och klave lika många gånger.

Även när man jämför två behandlingsmetoder i en studie kan resultatet bero på slumpen. Låt oss säga att 40 procent av patienterna dör efter att ha fått behandling A, medan 60 procent av en jämförbar grupp dör efter att ha fått behandling B. Låt oss anta att vi inte vet detta utan gör en studie. Tabell 1 visar hur det borde se ut om tio patienter fått behandling A och tio behandling B. Skillnaden i antalet dödsfall uttrycks som en riskkvot. Riskkvoten i det här exemplet blir 0,67.

Tabell 1. Ger den här lilla undersökningen en tillförlitlig uppskattning av skillnaden i effekt mellan behandling A och behandling B?

Behandling A Behandling B Riskkvot (A:B)
Antal döda 4 6 (4:6 =) 0.67
Av (totalt) 10 10

 

Kan vi utifrån en studie med så här få deltagare dra slutsatsen att behandling A är bättre än B? Sannolikt inte. Det kan ju vara slumpen som gör att det råkat hamna fler överlevare i den ena gruppen än i den andra. Upprepar vi studien i flera men lika små patientgrupper kommer slumpen ibland att ge motsatt resultat (6 mot 4), ibland visa att grupperna är lika (5 mot 5) och ibland ge helt andra siffror.Men hur skulle vi ställa oss om betydligt fler, säg 100 patienter, hade fått vardera behandlingen och vi såg samma andel döda (40 procent respektive 60 procent) (se tabell 2)? Även om skillnaden (riskkvoten) är exakt densamma (0,67) som i tabell 1, är 40 mot 60 mer tillförlitliga siffror än 4 mot 6, och nu är det mindre sannolikt att resultatet beror på slumpen.

Tabell 2. Ger den här medelstora undersökningen en tillförlitlig uppskattning av skillnaden mellan behandling A och behandling B?

Behandling A Behandling B Riskkvot (A:B)
Antal döda 40 60 (40:60 =) 0.67
Av (totalt) 100 100

 

För att inte bli vilseledd av rena tillfälligheter när man jämför behandlingar är knepet alltså att dra slutsatser utifrån ett tillräckligt stort antal patienter när man undersöker hur många som blir friskare, sjukare, dör eller inte påverkas alls. Detta kallas ibland ”de stora talens lag”.

Att bedöma slumpens inverkan på en välgjord studie

Slumpen kan få oss att begå två typer av misstag när vi ska tolka resultat från jämförande studier. Antingen tror vi på en skillnad mellan behandlingsgrupperna som faktiskt inte finns, eller så tror vi att det inte finns några skillnader när det faktiskt gör det. Ju fler observationer vi gör, desto säkrare blir vi – det blir allt mindre sannolikt att det är slumpen som lurar oss.

När man forskar kan man sällan undersöka samtliga personer som har fått eller kommer att få behandling för ett visst tillstånd. Därför går det aldrig att exakt fastställa de sanna skillnaderna mellan olika behandlingsmetoder. Studierna leder i stället fram till kvalificerade uppskattningar av de sanna skillnaderna.

Tillförlitligheten (eller reliabiliteten) i dessa uppskattningar anges ofta med ett spann som kallas konfidensintervall (KI). Sannolikheten för att den sanna skillnaden finns inom detta spann är stor. Egentligen vet många människor vad ett konfidensintervall är, även om de kanske inte har hört själva ordet tidigare. En opinionsundersökning inför ett politiskt val kan till exempel rapportera att parti A ligger 10 procentenheter högre än parti B, men i rapporten anges ofta att skillnaden mellan partierna kan vara så liten som 5 procentenheter eller så stor som 15 procentenheter. Detta är ett konfidensintervall som anger att den sanna skillnaden mellan partierna sannolikt ligger någonstans i spannet mellan 5 och 15 procentenheter. Ju fler människor som deltar i undersökningen, desto smalare blir konfidensintervallet och desto säkrare blir resultatet.

7_konfidensintervall

 Figur 10. Det 95-procentiga konfidensintervallet för skillnaden mellan parti A och parti B smalnar av ju fler som deltar i opinionsundersökningen

På motsvarande sätt som man bedömer graden av osäkerhet hos den uppmätta skillnaden i väljarstöd mellan parti A och B kan man bedöma graden av osäkerhet när det gäller en uppmätt skillnad mellan hur många patienter som blir bättre av behandling A och B. Samma sak gäller här: ju fler som deltar i studien som jämför A med B, desto smalare blir konfidensintervallet runt resultatet. Och ju smalare konfidensintervall, desto bättre.

Konfidensintervall åtföljs ofta av en siffra som anger hur säker man kan vara på att det sanna värdet ligger inom det angivna området. Ett konfidensintervall på 95 procent, till exempel, innebär att man med 95 procents säkerhet vet att det sanna värdet ligger inom konfidensintervallet. Det betyder att risken för att det sanna värdet ska ligga utanför området är 5 på 100 (det vill säga 5 procent).

Vad innebär ”signifikant” skillnad mellan behandlingar?

Detta är en lurig fråga eftersom ordet ”signifikant” kan ha flera betydelser. I andra sammanhang kan det ju betyda ”betydelsefull”. Men när forskare skriver att de har funnit en signifikant skillnad menar de vanligen att skillnaden är statistiskt säkerställd. Och en statistiskt säkerställd skillnad behöver inte alls vara betydelsefull (även om den kan vara det). Även om en uppmätt skillnad mellan två behandlingar sannolikt inte beror på slumpen – utan är ”signifikant” – kan den ju vara så liten att den saknar praktisk betydelse för patienten.

Ta exemplet med en systematisk översikt av randomiserade studier som jämför tiotusentals friska män som har tagit en tablett acetylsalisylsyra om dagen med tiotusentals andra friska män som inte gjort det. Översikten visar att de män som hade tagit acetylsalisylsyra fick färre hjärtinfarkter – en ”statistiskt signifikant” skillnad, som sannolikt inte beror på slumpen utan som förmodligen finns där. Detta betyder inte nödvändigtvis att skillnaden är betydelsefull för patienten (”kliniskt relevant”). Om risken för hjärtinfarkt hos friska män från början är mycket liten är det kanske onödigt att de tar läkemedlet, i synnerhet som acetylsalisylsyra har biverkningar. En del av biverkningarna, till exempel blödningar, kan orsaka dödsfall.[1] Utifrån samma systematiska översikt kan vi skatta att på 1 000 män som tar en tablett acetylsalisylsyra per dag i tio år, kommer detta att skydda fem från hjärtinfarkt, men tre kommer i stället att få en allvarlig blödning.

VAD BETYDER ”STATISTISK SIGNIFIKANS”?

Uppriktigt sagt är det ett problematiskt begrepp. Det kan berätta för oss om det är så att till exempel skillnaden mellan ett läkemedel och placebo eller skillnader i förväntad livslängd mellan två grupper av människor inte bara är resultat av tillfälligheter […] Begreppet innebär att en observerad skillnad av en viss storleksordning sannolikt inte har uppstått enbart av en slump.

Statistiker har satt gränser för att något ska anses ”osannolikt”. De brukar ange att femprocentsnivån är signifikant (skrivs ibland som p = 0,05). Skillnaden anses vara signifikant när sannolikheten är mindre än 1 på 20 att den ska ha uppstått bara till följd av slumpen.”
Spiegelhalter D, Citerad i: Making sense of statistics. 2010. www.sensaboutscience.org

Att få tillräckligt många försöksdeltagare

Ibland när man gör behandlingsstudier går det att få tillräckligt många deltagare om de rekryteras från ett eller två forskningscenter. Men vill man jämföra behandlingars effekt på sällsynta händelser, som dödsfall, måste man oftast rekrytera patienter från flera center och ofta i många länder, för att resultatet ska bli tillförlitligt. Det krävdes till exempel en studie med 10 000 deltagare i 13 länder för att avslöja att personer som hade allvarliga hjärnskador och som fick kortisonpreparat – en behandling som använts i mer än trettio år – kunde dö av behandlingen.[2] En annan välgjord studie från samma forskargrupp omfattade 20 200 patienter i 40 länder och visade att det billiga läkemedlet tranexamsyra minskade dödligheten orsakad av blödning efter yttre våld och olycksfall.[3] De här båda studierna utformades så att risken för systematiska fel och osäkerhet på grund av slumpens inverkan minskade. Därför är de utmärkta exempel på välgjorda studier som ger mycket tillförlitligt faktaunderlag av stor betydelse för hälso- och sjukvården över hela världen.

Figur 11 bygger på data som den prisbelönta forskargruppen har låtit oss använda. Den illustrerar varför det är så viktigt att forskare utgår från så mycket information som möjligt när de försöker minska slumpens inverkan. Rutersymbolen längst ner i figuren visar det samlade resultatet från studien av tranexamsyra. Den visar att läkemedlet minskade dödsfallen på grund av blödning med nästan 30 procent (riskkvot strax över 0,7). Det samlade resultatet ger den mest tillförlitliga skattningen av läkemedlets effekt, även om beräkningen från center på kontinent A antyder en mindre tydlig effekt (som inte är statistiskt säkerställd och sannolikt ett tecken på en underskattning av den sanna effekten). Beräkningen från center på ”övriga kontinenter” antyder en mer uppseendeväckande effekt (som sannolikt är en överskattning).

7_tranexamsyra_600px

Figur 11. Effekten av tranexamsyra på dödlighet hos patienter med stora blödningar efter trauma, totalt sett och uppdelat efter deltagarnas hemmakontinenter (opublicerade data från CRASH-2: Lancet 2010;376:23–32)

Vi har beskrivit hur man minskar slumpens inverkan genom att väga samman data från många center i många länder. I vissa fall kan man också statistiskt väga samman resultat från likartade men skilda studier, med hjälp av en metod som kallas metaanalys (se Utvärdering av all relevant och tillförlitlig dokumentation). Statistiker har under många år arbetat med att utveckla metoder för metaanalys, men det var först på 1970-talet som metoden började bli populär. Samhällsvetare i USA var de första som började använda den, och därefter följde medicinska forskare.

Mot slutet av 1900-talet hade metaanalys blivit allmänt accepterat som ett viktigt verktyg för vetenskaplig jämförelse av behandlingsmetoder. Till exempel planerades och finansierades fem identiska studier i fem olika länder för att besvara en sextio år gammal fråga: Vilken syrgashalt i blodet hos för tidigt födda (prematura) barn ger dem störst chans att överleva utan allvarliga funktionsnedsättningar? Om syrgashalten är för hög kan barnen bli blinda, men om den är för låg kan de dö eller utveckla cerebral pares. Eftersom syrgasnivån orsakar sådana skador i ganska få fall, krävdes det många deltagare (mer än 5 000 prematura barn) för att identifiera lämplig syrgashalt. Forskargrupperna som ansvarade för de fem olika studierna kom därför överens om att sammanfoga data från sina respektive studier. På så sätt fick de en tillförlitligare uppskattning än vad varje enskild studie kunde ge.[4]

Källhänvisningar

1 Antithrombotic Trialists’ (ATT) Collaboration. Aspirin in the primary and secondary prevention of vascular disease: collaborative meta-analysis of individual participant data from randomised trials. Lancet 2009;373:1849-60.

2 CRASH trial collaborators. Final results of MRC CRASH, a randomised placebo-controlled trial of intravenous corticosteroid in adults with head injury – outcomes at 6 months. Lancet 2005;365:1957-9.

3 CRASH-2 trial collaborators. Effects of tranexamic acid on death, vascular occlusive events, and blood transfusion in trauma patients with significant haemorrhage (CRASH-2): a randomised, placebo-controlled trial. Lancet 2010;376:23-32.

4 Askie LM, Brocklehurst P, Darlow BA, et al and the NeOProM Collaborative Group. NeOProM: Neonatal Oxygenation Prospective Metaanalysis Collaboration study protocol. BMC Pediatrics 2011; 11:6.