Tilastollinen merkitsevyys ja p-arvo

Käyttötarkoitus

Tilastollista merkitsevyyttä laskemalla pyritään selvittämään, miten todennäköisesti löydetty otoksen ja oletetun perusjoukon välillä esiintyvä ero johtuu jostain muusta kuin otoksen arvojen ja perusjoukon keskiarvon välillä luonnollisesti esiintyvästä vaihtelusta. Merkitsevyyttä ilmaistaan p-arvolla, joka kertoo millä todennäköisyydellä otos kuuluu perusjoukkoon.

Esimerkki käytöstä

Halutaan selvittää pidentääkö tietty uusi lääke kuolettavasta taudista X kärsivien potilaiden elinikää. Tämän selvittämiseksi annamme osalle sairaista uutta lääkettä. Tutkimuksen loputtua vertaamme lääkettä saaneiden elinikää taudin alkamisesta lähtien ilman lääkettä olleisiin. Vaikka lääkettä saaneet elivätkin keskimäärin pidempään kuin ilman lääkettä jääneet, emme voi varmasti sanoa etteikö kyseessä olisi ollut sattuma: eliniässä on luonnostaan tiettyä satunnaisuutta. Laskemme siis p-arvon, joka kertoo miten todennäköisesti tämä otos (lääkettä saaneet) kuuluu perusjoukkoon (ilman lääkettä olleet), eli tutkimme onko otoksen ja perusjoukon ero tilastollisesti merkitsevä.

P-arvojen tulkinta

Koska p-arvo kuvaa todennäköisyyttä. Todennäköisyyden luonteesta johtuen ei p-arvo koskaan ole 0. Tästä johtuen emme siis voi koskaan sanoa täysin varmasti, etteikö otos kuuluisi perusjoukkoon. Yleinen konventio kuitenkin on, että mikäli todennäköisyys otoksen perusjoukkoon kuulumiseen on pienempi kuin 5 %, eli p < 0,05, on se "tilastollisesti melkein merkitsevä", alle prosentin ( p < 0,01 ) todennäköisyys on "tilastollisesti merkitsevä" ja alle promillen (0,1% eli p < 0,001) "tilastollisesti erittäin merkitsevä".

Käyttöesimerkki R:llä

Jatkamme yllä esitettyä lääke-esimerkkiä. Olemme koonneet taulukon, jossa on lääkettä saaneiden eliniän ero vuosissa suhteessa ilman lääkettä olleiden keskimääräiseen elinikään. Toisin sanoen arvo "-0.21" merkitsee kyseisen henkilön eläneen taudin sairastumisensa jälkeen 0.21 vuotta eli 76 päivää vähemmän kuin ilman lääkettä olevat keskimäärin.

> elinaika
[1] -0.05 -0.15 1.03 0.61 0.52 0.03 -0.94 0.53 0.95 1.29
[11] 0.42 -0.97 -0.01 0.21 0.76 1.38 -0.08 -0.58 -0.33 -0.95
[21] 0.48 0.95 -0.24 -0.21 -0.42 0.99 0.92 1.25 0.31 1.49

> mean(elinaika)
[1] 0.3063333

Haluamme tietää mikä todennäköisyys on sille, että otoksemme kuuluu perusjoukkoon, jonka keskimääräinen elinikä on sama kuin lääkettä saamattomien potilaiden, eli tässä tapauksessa nolla. Suoritamme siis t-testin, jonka nollahypoteesi on, että otoksemme kuuluu perusjoukkoon jonka keskiarvo on 0.

> t.test(elinaika, mu=0)

One Sample t-test

data: elinaika
t = 2.3519, df = 29, p-value = 0.02568
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
0.03994675 0.57271991
sample estimates:
mean of x
0.3063333

Saimme tuloksena p-arvon 0.02568, joka kertoo yllä olevan nollahypoteesin oikeellisuuden todennäköisyydeksi hiukan alle 2.6%. Koska p-arvomme on pienempi kuin 0,05, mutta suurempi kuin 0,01, voimme siis sanoa tämän testin perusteella, että kyseessä on "tilastollisesti melkein merkitsevä ero".

Huomioita tilastollisesta merkitsevyydestä

On tärkeää huomata, että tilastollinen merkitsevyys ei ota kantaa siihen, onko huomattu ero otoksen ja perusjoukon välillä tutkimuksellisesti huomattava tai tärkeä. Esimerkiksi yllä käytetyn lääkekoe-esimerkin kaltaisessa tutkimuksessa voisimme saada melko varman tuloksen, että lääkkeen antaminen pidentää potilaan elinikää. Mutta mikäli tämä pidennys on vain muutaman päivän ja lääkehoito maksaa tuhansia, tulee tulosta arvioida myös hyödyn ja kustannuksen kannalta.

Samoin yllä oleva metodi ei ota kantaa siihen, mikä tämän eron varsinaisesti aiheuttaa. Ero voi mahdollisesti johtua esimerkiksi placebo-vaikutuksesta. Lääketutkimuksessamme tulisikin siis käyttää myös verrokkiryhmää, joka uskoo saavansa lääkettä, mutta ei todellisuudessa saa sitä. On mahdollista, että placebo-ryhmämme eroaa perusjoukostamme yhtä merkittävästi ja suuresti, taikka että placebo-ryhmämme jopa pärjää paremmin. Viimeisin vaihtoehto olisi mahdollinen, jos lääkkeellä onkin itseasiassa lievästi negatiivinen vaikutus elinikään, mutta lääkkeen saamisesta seuraava placebovaikutus on tätä negatiivista vaikutusta suurempi.

I ja II -tyyppiset virheet

Koska tilastolista merkitsevyyttä kuvataan todennäköisyydellä, on mahdollista että tulkitsemme tuloksen väärin, oli p-arvomme kuinka suuri tai pieni tahansa. Mikäli tulkitsemme virheellisesti että otoksemme ei kuulu perujoukkoon, eli hylkäämme nollahypoteesin vaikka se onkin totta, on kyseessä I-tyypin virhe. Mikäli tulkitsemme virheellisesti otoksemme kuuluvan perusjoukkoon, eli hyväksymme nollahypoteesin vaikka se onkin väärin, on kyseessä II-tyypin virhe.

Käytetyt lähteet

Ensimmäinen kommentti

Antoinen kommentteja:

  • Tekstisi on kerta kaikkiaan loistavaa.

  • Lukiessani kappaletta "Esimerkki käytöstä" ajattelin "olisi kannattanut kertoa lumeilmiöstä", mutta kerrotkin siitä myöhemmin.

  • Jaksossa "Käyttöesimerkki R:llä" voisit tarkentaa, onko muuttuja normaalisti jakautunut, ja onko sillä seikalla väliä.

  • Jos haluat mennä yksityiskohtiin, voisit vielä kertoa, että p-arvon tulkinta riippuu siitä, onko testi 1- vai 2-häntäinen.

Toinen kommentti

Sinin kommentit:

  • Teksti selkeää: ymmärtää hyvin mikä on ja mitä sillä tehdään
  • Boldaukset ovat oiken hyviä; ymmärtämisen kannalta tärkeät sanat tulee oikeasti huomioitua eikä piilotettua sivulauseen nurkkaan
  • Olisin kaivannut edes muutaman lauseen nollahypoteesista; nyt tulee aika puskan takaa

-- LeoLeppanen - 2012-10-04

Topic revision: r4 - 2012-10-11 - SiniPessala
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback