CLT255: Viides luentokerta (kovasti keskeneräinen)

Yksinkertaista testausta

Luetaan ensin kaksi lukusarjaa muuttujiin A ja B:

> A <- scan()
1: 79.98 80.04 80.02 80.04 80.03 80.03 80.04 79.97
9:      80.05 80.03 80.02 80.00 80.02
14:
Read 13 items
> B <- scan()
1: 80.02 79.94 79.98 79.97 79.97 80.03 79.95 79.97
9: 
Read 8 items
Piirretään näistä laatikkodiagrammi (boxplot) tai laatikko- ja viiksidiagrammi (box and whiskers plot), jossa kummankin arvojoukon jakautumaa on havainnollistettu.
> boxplot(A, B)
Arvot jakautuvat pystysuunnassa. Mediaani on laatikon keskellä, eli puolet arvoista osuu mediaanin yläpuolelle ja puolet alapuolelle. Laatikon alareuna on ensimmäisen kvartiilin kohdalla (jonka alapuolelle jää neljännes havaituista arvoista) ja yläreuna on kolmannen kvartiilin kohdalla (jonka yläpuolelle jää neljännes havaituista arvoista). "Viikset" osoittavat (yleensä) pienintä ja suurinta arvoa, joka muuttujalle tulee. R:ssä kuitenkin viiksien pituutta rajoitetaan oletuksena siten, että se ei ulotu kuin enintään 1,5-kertaa niin kauas kuin matka mediaanista ensimmäiseen (tai kolmanteen) kvartiiliin on. Tämä auttaa tunnistamaan mahdollisia epätavallisia arvoja (outlier), jotka piirretään pieninä ympyröinä diagrammiin.

Rinnakkain asetetuista diagrammeista on helppo arvioida karkeasti, ovatko muuttujien jakautumat (edes) suunnilleen samanlaisia. Diagrammi on sikäli hyvä, että sen laatimisessa ei tarvita olettamuksia muuttujan arvojen jakautumasta, esim. normaalisuudesta. Muuttujan asteikon pitää toki olla järjestysasteikko, eli eri arvoista pitää tietää, mikä on suurempi ja pienempi.

Muuttujien A ja B arvoissa näyttää olevan eroa siten, että A:n arvot ovat enimmäkseen isompia kuin B:n.


> plot(ecdf(A))
> plot(ecdf(A), verticals=TRUE)
> plot(ecdf(A), do.points=FALSE, verticals=TRUE)
> plot(ecdf(B), do.points=FALSE, verticals=TRUE, add=TRUE)

Jos oletamme, että muuttujien A ja B arvot jakautuvat normaalijakautuman mukaisesti, voimme suorittaa t-testin arvioidaksemme keskiarvojen erilaisuutta. Testi kertoo, että jos muuttujien keskiarvot olisivat samanlaisia, niin kuinka harvinaista olisi, että ne otoksissa sattuisivat olemaan näin kaukana toisistaan. Perusmuodossaan testi sallii sen, että A:n hajonta olisi pienempi kuin B:n, kunhan molemmat ovat itsessään normaalisti jakautuneita.

> t.test(A, B)

        Welch Two Sample t-test

data:  A and B 
t = 3.2499, df = 12.027, p-value = 0.00694
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 0.01385526 0.07018320 
sample estimates:
mean of x mean of y 
 80.02077  79.97875 

Kun todennäköisyys p on noinkin pieni eli alle prosentin, niin voisimme pitää epätavallisena, että ero johtuu vain sattumasta. Joskus voimme olettaa, että muuttujien hajontojen pitäisi olla samat tai ainakin, että ei ole mitään syytä, miksi ne olisivat erilaiset. Hajontojen (tai varianssin eli hajonnan neliön) erilaisuutta voimme tarkistaa samantapaisesti. Eri otoksissa hajonta tietysti vaihtelee, mutta suuret poikkeamat ovat harvinaisia. Voimme tokin tarkistaa F-testillä, ovatko A:n ja B:n hajonnat (varianssit) niin paljon poikkeavia, että se olisi harvinaista:

> var.test(A, B)

        F test to compare two variances

data:  A and B 
F = 0.5837, num df = 12, denom df = 7, p-value = 0.3938
alternative hypothesis: true ratio of variances is not equal to 1 
95 percent confidence interval:
 0.1251097 2.1052687 
sample estimates:
ratio of variances 
         0.5837405 
Todennäköisyys, että samalla hajonnalla varustetut muuttujat tuottaisivat tällaisissa otoksissa tuon kokoisia eroja otoksista lasketuissa hajonnoissa on tässä 0,3938. Emme sis voi hylätä oletusta, että hajonnat olisivat samat.

Niimpä laskemme kokeen vuoksi vielä t-testin pitäen kiinni oletuksesta, että muuttujien varianssit ovat keskenään samat.

> t.test(A, B, var.equal=TRUE)

        Two Sample t-test

data:  A and B 
t = 3.4722, df = 19, p-value = 0.002551
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 0.01669058 0.06734788 
sample estimates:
mean of x mean of y 
 80.02077  79.97875 
Tällä oletuksella t-testi antaa vähän selkeämmin tuloksen, että keskiarvot ovat erilaisia, vain neljäsosaprosentissa tapauksista saataisiin otokseen näin iso keskiarvojen ero.

T-testillä on se ongelma, että se edellyttää muuttujilta normaalijakautumaa. Varsinkin kieleen liittyvissä tilastoissa tämä on usein huono olettamus.



Esimerkki sanojen pituuksien kanssa

> alm100 = read.table("alm-100-lenwd.txt", header=TRUE)
> alm100
   LEN              WORD
1    4              carl
2    5             jonas
3    4              love
4    8          almqvist
5    3               det
6    3               går
7    2                an
8    6            första
9    8          kapitlet
... jne.



-- KimmoKoskenniemi - 2010-11-11


Topic attachments
I Attachment Action Size Date Who Comment
Texttxt aho-100-lenwd.txt manage 1.0 K 2010-11-12 - 06:30 KimmoKoskenniemi Aho "Helsinkiin" 100 sanan näyte
Texttxt alm-100-lenwd.txt manage 1.0 K 2010-11-12 - 06:29 KimmoKoskenniemi Almqvist "Det går an" 100 sanan näyte
Edit | Attach | Print version | History: r8 | r6 < r5 < r4 < r3 | Backlinks | Raw View | Raw edit | More topic actions...
Topic revision: r4 - 2010-11-12 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback