Studentin T-testi

Käyttötarkoitus

Studentin t -testillä voi ottaa selvää eroavatko kahden ryhmän keskiarvot toisistaan merkittävästi. Sillä voidaan myös selvittää eroavatko yhden ryhmän kahden eri otoksen keskiarvot merkittävästi toisistaan.

Käytön edellytykset ja oletukset

Oletuksena eli hypoteesinä on, että ryhmien keskijakautumat ovat samat. Oletetaan siis, että ryhmät ovat samasta populaatiosta. Testi edellyttää ainoastaan että otokset ovat riittävän suuria, jotta mahdolliset erot tulisivat esille.

Samankaltaiset menetelmät

Keskiarvoja selvitettäessä yhden ryhmän keskiarvon saa selville yksinkertaisesti R:ssä komennolla mean(x). Varianssianalyysillä voidaan selvittää kahden tai usemman ryhmän keskiarvojen eroavaisuutta.

Tärkeimmät erityispiirteet suhteessa muihin

Student t -testi selvittää ainoastaan kahden eri ryhmän tai otoksen keskiarvojen eroavaisuutta.

Testin palauttamat arvot

  • t
  • df - degrees of freedom, vapausasteet
  • p-value
  • 95% luottamusväli
  • molempien ryhmien/otosten keskiarvot

Havainnollinen käyttöesimerkki R:llä

Kopioin Kimmon Koskenniemen viime vuotisesta luentomateriaalista ahoalm-len.csv havaintomatriisi tyyppisen tiedoston itselleni https://kitwiki.csc.fi/twiki/bin/view/KitWiki/HyClt255s2011L05 ja luen sen R:ään. Tiedosto sisältää sanoja Juhani Ahon ja Carl Jonas Love Almqvistin teoksesta, suomen että ruotsin kielellä sekä sanojen ja tavujen pituudet. Oletetaan, että suomen ja ruotsin kielen tavut ovat saman mittaiset ja suoritetaan StudentT-testi. (SYL viittää tavuihin ja LAN kieleen.)

> x <- read.csv("ahoalm-len.csv", header=TRUE)
> attach(x)
> t.test(SYL ~ LAN)

        Welch Two Sample t-test

   data:  SYL by LAN 
   t = 3.3359, df = 195.874, p-value = 0.001017
   alternative hypothesis: true difference in means is not equal to 0 
   95 percent confidence interval: 
    0.2105962 0.8197068 
   sample estimates: 
   mean in group FI mean in group SV 
           2.464646         1.949495 

P-arvon ollessa noin pieni voidaan päätellä ettei ole pelkkää sattumaa että tulos on tämä ja voimme hylätä nollahypoteesin, joka tässä tapauksessa oli että suomen ja ruotsin kielen tavut olisivat saman mittaisia. T:kään ei mene luottamusväliin.

Arvojen tulkinta

P-arvosta (p-value) voi katsoa nollahypoteesin vallitessa prosentuaalisen luvun tulosten sattumanvaraisuudelle.

Kohdasta t taas näkee lankeaako itse t suure luottamusvälille, kun hypoteesinä on, että rymät ovat samasta populaatiosta.

"95 percent confidence interval":lla tarkoitetaan luottamusväliä, jonne odotetaan suurimman osan t arvoista päätyvän. Luottamusväli sijoittuu ryhmien keskiarvojen erotuksen molemmille puolille tasaisesti. Jos verrataan saman ryhmän kahden eri otoksien keskiarvojen eroavaisuuksia, sijoittuu luottamusväli verrattavan otoksen keskiarvon molemmin puolin.

Df-arvo (degrees of freedom, vapausasteet) ei ole niin oleellinen testin tuloksen arvioinnin kannalta. Se ilmoittaa otoskoon.

Merkitsevyyden tunnistaminen arvoista

P-arvon merkitsevyyden rajat pitää itse pohtia. Yleensä merkitsevyyden raja kuitenkin kulkee 0,05 tai 0,01 kohdilla. Kun siis p-arvo alittaa merkitsevyyden rajan voidaan nollahypoteesi hylätä.

Käytetyt lähteet

Ensimmäinen kommentti

Alustava kommentti Edytalta. Kiva esimerkki. Laittaisitko vielä, mistä sait sen tiedoston, mitä käytät, niin voi itse suorittaa saman testin? Mikä on df ja miksi se on tärkeä? Alussa selitit kaiken todella hyvin, R:n esimerkin jälkeen putosin kärryltä, mutta ehkä se on sen takia, että minun suomen kielen tasolla sanat olivat liian vaikeita, en siis kovin hyvin ymmärtänyt miten tulkin testin arvoja. "Merkitsevyyden tunnistaminen arvoista" kohdassa oli taas kaikki tosi selkeä. --Edyta.Jurkiewicz

Toinen kommentti

Alustava kommentti Juholta

Hyvännäköinen sivu. Tässä on kaikki asiat selitetty selkeästi ja hyvin. Ainut mihin itse laittaisin hieman lisää informaatiota on kohta "havainnollinen käyttöesimerkki R:llä". -Juho Saarikoski

Kolmas kommentti

Kommentti Erkiltä: Aika selkeää tekstiä. Muita samankaltaisia menetelmiä voisi olla esim. kahden otoksen mediaanien vertailu. Tätä varten voi käyttää esim. two sample t-testiä (http://ccnmtl.columbia.edu/projects/qmss/the_ttest/twosample_ttest.html).

-- MaijaOhman - 2012-09-28

Topic revision: r11 - 2012-10-09 - AnssiYliJyra
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback