CLT255, 3. luentokerta: Tilastollisista menetelmistä

Luennolla käsiteltiin tavallisimpia yksinkertaisia tilastollisia menetelmiä yleisellä tasolla. Materiaalia on mm. Wikipedian statistics -artikkelissa:

  • Keskiarvo, varianssi ja hajonta
  • Kahden muuttujan välinen korrelaatiokerroin: vaihtelee välillä -1 ... +1. Kuvaa sitä, kuinka samansuuntaisesti muuttujat vaihtelevat. Riippumattomilla kerroin on 0, nollaa isommat ja pienemmät arvot kuvaavat samansuuntaista tai vastakkaissuuntaiste riippuvuutta, ei kuitenkaan syy-seuraus-suhdetta. Ks. kuvia ja tekstiä Wikipedian Pearson product-moment correlation -artikkelissa. Kuvissa osoitetaan, että kaikki riippuvuudet eivät heijastu nollasta poikkeavana korrelaatiokertoimena.
  • Spearmannin järjestyskorrelaatiokerroin: jos muuttujien arvot ovat skaalaltaan ongelmallisia tai niissä on yksittäisiä kaukana keskiarvosta olevia havaintoja, niin korrelaatiokerroin voidaan laskea järjestysluvuista itse havaintoarvojen sijasta, jolloin saadaan ns. järjestyskorrelaatioita. Nämä ovat perusteltuja, jos tulkitsemme arvoasteikon vain järjestysasteikoksi, emmekä usko asteikon tasavälisyyteen (eli se ei ole intervalliasteikko).
  • Khin neliö testaa luokiteltua aineistoa arvioimalla sitä, jakautuuko aineisto odotuksen mukaisesti eri luokkiin vai onko luokissa kohtuullista odotusta enemmän tai vähemmän tapauksia.
  • Studentin t-testi mittaa sitä, poikkeavatko kahden muuttujan keskiarvot toisistaan odottamattoman paljon. Esimerkiksi, jos olisi mitattu vaikka turkulaisten ja kajaanilaisten 15-vuotiaiden poikien pituuksia, niin luonteva nollahypoteesi olisi, että heidän keskiarvopituutensa on sama. T-testi arvioi sitä, kuinka epätodennäköistä olisi saada niin paljon poikkeava tulos, kuin mita saatiin, jos keskiarvot olsivat olleet yhtasuuret.
  • Regressioanalyysissä pyritään selittämään jotakin muuttujaa eräiden toisten muuttujien avulla, esim. sopivilla kertoimilla laskettuna summana. Siis ennustetaan selitettävää muuttujaa mahdollisimman hyvin selittävien muuttujien avulla summana, jossa kukin selittävä muuttuja on kerrottu kertoimella.
  • Varianssianalyysi selvittelee ryhmiin jakautuneen aineistossa ryhmien välisen ja ryhmien sisäisen varianssin suhteita tavoitteena arvioida, onko ryhmien välinen varianssi merkittävän suurta. Esimerkkinä voi olla esim. tiettyä lääkettä saaneiden paraneminen verrattuna lääkettä saamattomiin.

Eri menetelmiä pyrittiin havainnollistamaan. Podittiin alustavasti myös sitä, minkälaisesta havaintomatriisista tällaisia analyysejä voitaisiin laskea, esim. khin neliön tai t-testin laskemiseksi pitäisi olla nomiaaliasteikolla oleva luokittelija (tai muutamia luokittelijoita).

Tähdennettiin, että testit eivät osoita syy-seuraussuhteita. Muuttujien X ja Y korrelaatioista huolimatta voi olla, että X ei johdu Y:stä vaan Y X:stä, tai sitten kumpikaan ei toisesta vaan jostakin alla olevasta muusta Z:sta. Mikään tilastollinen testi ei ratkaise tällaisia asioita.

Perustulkinta tilastolliselle testille on yleensä: "Jos mitään eroa ei olisikaan, tällainen tulos voitaisiin kyllä saada, mutta sen todennäköisyys olisi niin ja niin pieni". Testin jälkeen voidaan sanoa esimerkiksi, että vain kerran tuhannesta tulisi näinkin iso ero ryhmien keskiarvoon, jos ryhmät olisivat keskenään samanlaisia. Johtopäätös olisi, että on aika luultavaa, että ryhmät ovat erilaisia.

Edelleen on pidettävä erillään kaksi eri käsitettä: (1) käytettävissä olevalla aineistolla ero tai riippuvuus saadaan esille ja (2) ero tai riippuvuus on suuruudeltaan merkittävä. Voitaisiin esim. ajatella, että ihmisten vasemmat kädet olisivat aavistuksen verran lyhyempiä kuin oikeat kädet. Ero olisi merkityksetön, eli esim. sadasosamillin erolla ei ole väliä. Pienessä otoksessa ero ei tulisi koskaan tilastollisesti esille, sillä hajontaa on niin paljon. Silti ottamalla tarpeeksi iso otos, esim. miljoonia, ilmiö saataisiin varmasti esille tilastollisesti (jos sellainen ero olisi).

-- KimmoKoskenniemi - 2010-10-15

Topic revision: r4 - 2010-12-02 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback