Tyypillisiä tilastollisia kysymyksenasetteluja ja niihin soveltuvia menetelmiä

Onko muuttujan jakautuma normaali?

Oletetaan, että meillä on muuttuja F$X, joka on jatkuvalla asteikolla ja mittaa jotakin fysikaalista suuretta, esimerkiksi äänteen kestoa tai koehenkilön vastaamisen viivettä. Ensimmäinen asia, mikä kannattaa yleensä tehdä, on piirtää näkyville joko muuttujan jakautuman tiheyskäyrä plot(density(F$X)) tai kertymäkäyrä plot(ecdf(F$X)). Näitä käyriä voi silmämääräisesti verrata normaalijakautuman vastaaviin käyriin.

Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otetaan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani (tai 1. kvartiili tms.) ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan qq-diagrammi.

Jos jakautumat ovat samat, tulee ruutuun suora viiva vasemmasta alanurkasta oikeaan ylänurkkaan. Notkolla ja kuprulla oleva viiva ilmentää jakautumien välistä poikkeamaa.

Jos halutaan verrata yhdestä muuttujasta saatua jakautumaa normaalijakautumaan, voidaan käyttää R:n valmista funktiota qqnorm(F$X), joka piirtää toiselle akselille tämän teoreettisen jakautuman mukaisia kvantiileja ja toiselle oman muuttujamme mukaiset. Suora viiva osoittaisi jakautumamme normaalisuutta.

Testivälineet (viittauksia taksonomian osiin)

  • Χ2-testi (Antoine):

Χ2-testillä voi testata, onko muuttujan jakauma normaali. Tähän tarkoitukseen voi käyttää R:n funktiota chisq.test(). Tällöin täytyy antaa funktiolle chisq.test() p-argumentti, jossa on odotetun normaalijakauman mukaisia todennäköisyyksiä.

Sivuni https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HyClt255MetodiKhiinNelioTesti jakso Esimerkki (yhteensopivuus) tarjoaa esimerkin, jossa vertaillaan muuttujan jakaumaa tasakaumaan, mutta samaa periaatetta voi soveltaa normaalijakaumaankin.

Lienee tavallisempaa käyttää muita menetelmiä normaalitestaukseen, mutta kuten Teemu Luojola toteaa oppaassaan Kielitieteellisen aineiston kvantitatiiviset analyysimenetelmät: 2-]Testiä voi käyttää kaikentyyppisille muuttujille, mutta omimmillaan se on nominaali- ja järjestysasteikollisten muuttujien kohdalla, koska tällöin ei juurikaan ole tarjolla muita menetelmiä.

  • XX-testi

Onko muuttujan keskiarvo tietty?

Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,mu=25.0). Testissä lasketaan t-arvo, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan p-arvo, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.

Kuten näistä t-testin kuvailuista huomataan, testin mielekäs käyttäminen edellyttää sitä, että muuttujamme on normaalisti jakautunut. Ohjelma tietysti laskee testin arvot mille tahansa lukusarjoille, mutta sellaisten tulosten tulkinnalle ei ole perusteita, eikä sellaisia testejä pitäisi julkaisuihin tai opinnäytteisiin laittaa.

Testivälineet (viittauksia taksonomian osiin)

  • XX-testi

Ovatko kahden otoksen jakautumat samat?

Yllä käsiteltiin qq-diagrammia, jollainen voidaan piirtää mille tahansa kahdelle jatkuvalla asteikolla olevien muuttujien otokselle riippumatta siitä, millaisesta jakautumasta otokset ovat kotoisin. Jos otokset ovat kotoisin samasta jakautumasta, niiden kertymäfunktioiden tulisi olla samankaltaisia. Vastaavasti, jos otokset ovat kotoisin jollakin tavalla erilaisista jakautumista, kertymäfunktioissa on ainakin jossakin kohdassa eroa.

Kolmogorovin ja Smirnovin testissä laskettava suure on kahden otoksen kertymäfunktioiden maksimiero, eli etsitään muuttujien asteikolta sellaisia kohtia, joissa toisessa otoksessa on suurempi (tai yhtä hyvin pienempi) prosentti tätä arvoa pienempiä arvoja kuin toisessa. Testi mittaa suurinta eroa, joka koko jakautumassa näiden kertymäfunktioiden välissä on.

Kolmogorovin ja Smirnovin testi on ns. ei-parametrinen (nonparametric) eli sitä voidaan käyttää riippumatta siitä, millaista jakautumaa muuttujat noudattavat. Erityisesti normaalijakautumaa ei tarvitse olettaa, eikä ole haittaa, vaikka jakautuma ei olisikaan normaalinen.

Testivälineet (viittauksia taksonomian osiin)

  • Χ2-testi (Antoine):

Χ2-testillä voi testata, ovatko kaksi otosta peräisin samasta jakaumasta. En mainitse eksplisiittisesti tätä mahdollisuutta sivullani (https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HyClt255MetodiKhiinNelioTesti).

Käytännössä toista otosta käsitellään referenssinä ja toista testataan tätä referenssiä vasten.

En löytänyt R:stä suoraa tukea tällaiselle testausskenaariolle, mutta esimerkiksi http://www.itl.nist.gov/div898/software/dataplot/refman1/auxillar/chi2samp.htm (ks. Description) selittää asian hyvin.

  • XX-testi

Ovatko kahden otoksen keskiarvot samat?

Keskiarvo voidaan laskea mille tahansa jatkuvan asteikon muuttujalle ja miksei kokonaislukuarvoisellekin. Keskiarvolla ei kuitenkaan ole aivan samaa merkitystä muille jakautumille kuin normaalijakautuman mukaisille. Sama koskee hajontaa, joka voidaan aina laskea, mutta normaalijakautumalle hajonnalla on erityinen tulkinta.

Muille, siis ei-normaalisille jatkuvan asteikon jakautumille on muita tunnuslukuja, jotka voivat olla sopivampia. Hyvin yleispäteviä ovat mediaani (arvo, jota pienempiä puolet havainnoista on), kvartiilit (arvo, jota pienempiä 1/4, 2/4 tai 3/4 havainnoista on) ym.

Oletetaan, että meillä on kaksi otosta, joiden voidaan olettaa olevan kotoisin normaalijakautuman mukaisesta jakautumasta. Nollahypoteesina on, että kummatkin otokset olisivat yhdestä ja samasta jakautumasta. T-testin suorittamiseksi täytyy arvioida tätä yhteistä jakautumaa laskemalla näiden kahden otoksen yhteinen keskiarvo ja vastaavasti otosten yhteinen hajonta. Sen jälkeen voimme laskea tällaisen jakautuman mukaisesti t-testin suureen arvon ja arvioida sen poikkeuksellisuutta. Itse t-testi suoritetaan funktiolla t.test(), jonka kahtena ensimmäisenä argumentteina ovat ne muuttujat, joiden keskiarvojen erilaisuutta testataan.

Testivälineet (viittauksia taksonomian osiin)

  • XX-testi

Tehtäviä

-- KimmoKoskenniemi - 2011-11-24 -- AnssiYliJyra - 2012-10-05

Topic revision: r2 - 2012-10-07 - AntoineTrux
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback