Difference: HyClt255s2010L05 (4 vs. 5)

Revision 52010-11-12 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2010"
Changed:
<
<

CLT255: Viides luentokerta (kovasti keskeneräinen)

>
>

CLT255: Viides luentokerta

 

Yksinkertaista testausta

Line: 95 to 95
 

Esimerkki sanojen pituuksien kanssa

Added:
>
>
Tämän sivun liitteenä on näytteitä suomen- ja ruotsinkielisistä teksteistä. Ne ovat Gutenbergin vapaita teoksia sisältävässä arkistossa olevista Ahon ja Almqvistin teoksen alusta otettuja pätkiä, joka on muotoiltu havaintomatriiseiksi. Käynnistämällä R ja asettamalla sen oletushakemisto siihen hakemistoon, johon on ladannut nuo näytteet, niitä voi käsitellä. Huomaa lukukomennossa parametri header=TRUE joka on tarpeen, kun aineistossa ei luonnostaan ole havaintoja erottelevaa tunnusnumeroa (ja siis muuttujien nimiä on yhtä monta kuin muuttujiakin).
 
> alm100 = read.table("alm-100-lenwd.txt", header=TRUE)
> alm100
Line: 109 to 110
 8 6 första 9 8 kapitlet ... jne.
Added:
>
>
> aho100 <- read.table("aho-100-lenwd.txt", header=TRUE)
 
Added:
>
>
Tavan mukaan otamme yleiskatsauksen, josta näemme, että kaikki on suunnilleen kohdallaan ja minkälaiset nimet muuttujilla on:
 
Added:
>
>
> summary(alm100)
LEN WORD Min. : 1.000 och : 5 1st Qu.: 3.000 till : 4 Median : 5.000 i : 3 Mean : 5.737 inte : 3 3rd Qu.: 8.000 av : 2 Max. :17.000 ett : 2 (Other):80 > summary(aho100)
LEN WORD Min. : 1.000 ja : 6 1st Qu.: 4.000 oli : 3 Median : 6.000 helsinkiin: 2 Mean : 6.343 kellot : 2 3rd Qu.: 8.000 laivain : 2 Max. :15.000 niinkuin : 2 (Other) :82
 
Added:
>
>
Havainnollisen kuvan saaa laatikkodiagrammilla ruotsin- ja suomenkielisten saneiden pituuksia kuvaavista muuttujista:
 
Added:
>
>
> boxplot(alm100$LEN, aho100$LEN)
 
Added:
>
>
Emme hetkeäkään usko siihen, että saneiden pituudet jakautuisivat normaalijakautuman mukaisesti, mutta teemme kuitenkin ruotsin- jasuomenkielisten näytteiden saneiden keskipituuksille t-testin:
 
Added:
>
>
> t.test(alm100$LEN, aho100$LEN)

Welch Two Sample t-test

data: alm100$LEN and aho100$LEN t = -1.359, df = 193.281, p-value = 0.1757 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -1.4856240 0.2735028 sample estimates: mean of x mean of y 5.737374 6.343434 Testi ei anna perusteita hylätä oletusta siitä, että kummassakin kielessä keskipituudet olisivat samoja. Päättely menee suunnilleen näin:

  • ensimmäisenä voi katsoa aina p-value -kohdan, jossa 0.1757 jo paljastaa, että noin 17 % tapauksissa eli kerran kuudesta tulisi näinkin iso ero keskiarvoon
  • itse t-testin nimenomainen suure t saa arvon -1,485624, joka on 95 % ns. luottamusvälin sisällä, eli sillä alueella, jolle t lankeaa 95 % tapauksista.

Siitä, että saneiden pituuksien jakautuma ei vastaa normaalijakautumaa saa ainakin havainnollisen kuvan pylväsdiagrammeilla eli histogrammeilla:

> hist(alm100$LEN)
> hist(aho100$LEN)
Histogrammit ovat vinoja luonnollisesta syystä. Pituus on aina vähintään yksi ja lyhyet sanat ovat yleisimpiä, mutta pitempiäkin esiintyy. T-testi on siis perustellusti huono.

Histogrammin ohella tilastotieteessä käytetään ns. kertymäfunktiota, joka ilmoittaa, kuinka suuri osuus kaikista havainnoista on annettua arvoa pienempi tai yhtäsuuri sen kanssa. Teoreettisesti kertymäfunktio on hyvä sikäli, että se on laskettavissa kaikenlaisille jakautumille, olivat ne jatkuvalta tai diskreetiltä asteikolta tai vaikka tällaisten yhdistelmältä.

 
Added:
>
>
> plot(ecdf(alm100$LEN), do.points=FALSE, verticals=TRUE)
> plot(ecdf(aho100$LEN), do.points=FALSE, verticals=TRUE, col=2, add=TRUE)

On sellaisiakin testejä, jotka eivät edellytä normaalijakautuman oletusta. Yksi näistä on Kolmogorov-Smirnovin testi. Se perustuu juuri kertymäfunktioiden vertailuun ja mittaa kahden kertymäfunktion välistä maksimieroa, johon testi perustuu.

> ks.test(alm100$LEN, aho100$LEN)

        Two-sample Kolmogorov-Smirnov test

data:  alm100$LEN and aho100$LEN 
D = 0.202, p-value = 0.03518
alternative hypothesis: two-sided 

Warning message:
In ks.test(alm100$LEN, aho100$LEN) :
  cannot compute correct p-values with ties
Kolmogorovin ja Smirnovin testi siis löytää melkein merkitsevän (riski alle 6 %) eron kielten välillä.

On toinenkin, Mannin ja Whitneyn (ja Wilcoxonin) U testi, joka mittaa tasoeroja olettamatta normaalijakautumaa. Se perustuu vähän samaan ajatteluun kuin järjestyskorrelaatiokin eli siihen, että muuttujien arvot korvataan niiden järjestysluvuilla. kahta riippumatonta muuttujaa, kuten tässä, verrataan siten, että tarkastellaan sitä, kuinka kaikkien arvojen nousevassa järjestyksessä eri ryhmien arvot keskenään sijoittuvat.

> wilcox.test(alm100$LEN, aho100$LEN)

        Wilcoxon rank sum test with continuity correction

data:  alm100$LEN and aho100$LEN 
W = 4112, p-value = 0.04931
alternative hypothesis: true location shift is not equal to 0 
Myös Mannin ja Whitneyn testi saa jo tällä otoksella melkein merkitsevän eron näiden kahden otoksen välille.


Tehtävä 2

Tämän sivun liitteenä on myös Ahon ja Almqvistin koko teoksisat tehdyt havaintomatriisit. Ne voit lukea R:ään havaintomatriisiksi samaan tapaan kuin yllä, esim. aho <- read.table("aho-helsinkiin-lenwd.txt", header=TRUE). Huomaa, että niistä voi ottaa osia, esim. aho$LEN[1001:1200] ottaa kaksisataa alkiota alkaen alkiosta 1001. Tehtävänä on toistaa yllä esitetyt askelet (t-testi, Kolmogorov-Smirnovin testi ja Mann-Whitneyn U-testi) juuri tuollaiselle kandensadan alkion osalle kummastakin kirjasta. Tuloksena annetaan sähköpostiviestiin kopioituna R:n konsolilta komennot ja niiden tulokset sekä ennen kaikkea tulkinta, siis onko mahdollinen ero melkein merkitsevä (5 %), merkitsevä (1 %) tai erittäin merkitsevä (0,1 %) riskirajalla.

Tehtävä 3

Vertaa Kolmogorovin ja Smirnovin testillä Ahon koko teoksesta sananpituuksien jakaumia teoksen sisäisesti. (a) sata ensimmäistä vs. sata alkaen kohdasta 10001, (b) tuhat ensimmäistä vs. tuhat alkaen kohdasta 10001. Kuvaile tulos ja tulkitse kuten edellisessä tehtävässä.
  -- KimmoKoskenniemi - 2010-11-11
Line: 164 to 258
 
META FILEATTACHMENT attachment="alm-100-lenwd.txt" attr="" comment="Almqvist %22Det går an%22 100 sanan näyte" date="1289543360" name="alm-100-lenwd.txt" path="alm-100-lenwd.txt" size="989" stream="alm-100-lenwd.txt" tmpFilename="/usr/tmp/CGItemp13352" user="KimmoKoskenniemi" version="1"
META FILEATTACHMENT attachment="aho-100-lenwd.txt" attr="" comment="Aho %22Helsinkiin%22 100 sanan näyte" date="1289543423" name="aho-100-lenwd.txt" path="aho-100-lenwd.txt" size="1048" stream="aho-100-lenwd.txt" tmpFilename="/usr/tmp/CGItemp13276" user="KimmoKoskenniemi" version="1"
Added:
>
>
META FILEATTACHMENT attachment="almqvist-det-gaar-an-lenwd.txt" attr="" comment="Almqvist %22Det går an%22 koko tekstin saneet ja pituudet" date="1289547894" name="almqvist-det-gaar-an-lenwd.txt" path="almqvist-det-gaar-an-lenwd.txt" size="315368" stream="almqvist-det-gaar-an-lenwd.txt" tmpFilename="/usr/tmp/CGItemp13542" user="KimmoKoskenniemi" version="1"
META FILEATTACHMENT attachment="aho-helsinkiin-lenwd.txt" attr="" comment="Aho %22Helsinkiin%22 koko tekstin saneet ja niiden pituudet" date="1289547950" name="aho-helsinkiin-lenwd.txt" path="aho-helsinkiin-lenwd.txt" size="203118" stream="aho-helsinkiin-lenwd.txt" tmpFilename="/usr/tmp/CGItemp13601" user="KimmoKoskenniemi" version="1"
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback