Difference: HyClt255s2011L06 (1 vs. 7)

Revision 72011-11-26 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
Deleted:
<
<
*keskeneräinen*
 

CLT255: Kuudes materiaalierä

Havaintomatriiseista

Line: 56 to 54
  Oletetaan, että meillä on kaksi otosta, joiden voidaan olettaa olevan kotoisin normaalijakautuman mukaisesta jakautumasta. Nollahypoteesina on, että kummatkin otokset olisivat yhdestä ja samasta jakautumasta. T-testin suorittamiseksi täytyy arvioida tätä yhteistä jakautumaa laskemalla näiden kahden otoksen yhteinen keskiarvo ja vastaavasti otosten yhteinen hajonta. Sen jälkeen voimme laskea tällaisen jakautuman mukaisesti t-testin suureen arvon ja arvioida sen poikkeuksellisuutta. Itse t-testi suoritetaan funktiolla t.test(), jonka kahtena ensimmäisenä argumentteina ovat ne muuttujat, joiden keskiarvojen erilaisuutta testataan.
Deleted:
<
<

Kuinka hyvin samoista yksilöistä mitattujen muuttujien yhdistelmä selittää tiettyä muuttujaa

((täydentyy))

Lineaarinen regressio

l <- lm(formula = y ~ v2 + v3)

summary(l)

plot(l)

Kahden samoista yksilöistä mitatun muuttujan yhteisjakautuma

((täydentyy))

Hajontadiagrammi plot(x1,x2), QQ-diagrammi qqplot(x1,x2)

Jatkuva muuttuja ja luokittelija

((täydentyy))

Varianssianalyysi

Kaksi luokittelijaa ja niiden perusteella laskettuja lukumääriä

((täydentyy))

Khin neliö -testi

 

Tehtävä nro 7

Revision 62011-11-25 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
*keskeneräinen*
Line: 40 to 40
 Kuten näistä t-testin kuvailuista huomataan, testin mielekäs käyttäminen edellyttää sitä, että muuttujamme on normaalisti jakautunut. Ohjelma tietysti laskee testin arvot mille tahansa lukusarjoille, mutta sellaisten tulosten tulkinnalle ei ole perusteita, eikä sellaisia testejä pitäisi julkaisuihin tai opinnäytteisiin laittaa.
Changed:
<
<

Ovatko kahden keskenään riippumattoman muuttujan jakautumat samat?

>
>

Ovatko kahden otoksen jakautumat samat?

  Yllä käsiteltiin qq-diagrammia, jollainen voidaan piirtää mille tahansa kahdelle jatkuvalla asteikolla olevien muuttujien otokselle riippumatta siitä, millaisesta jakautumasta otokset ovat kotoisin. Jos otokset ovat kotoisin samasta jakautumasta, niiden kertymäfunktioiden tulisi olla samankaltaisia. Vastaavasti, jos otokset ovat kotoisin jollakin tavalla erilaisista jakautumista, kertymäfunktioissa on ainakin jossakin kohdassa eroa.
Line: 48 to 48
  Kolmogorovin ja Smirnovin testi on ns. ei-parametrinen (nonparametric) eli sitä voidaan käyttää riippumatta siitä, millaista jakautumaa muuttujat noudattavat. Erityisesti normaalijakautumaa ei tarvitse olettaa, eikä ole haittaa, vaikka jakautuma ei olisikaan normaalinen.
Changed:
<
<

Ovatko kahden keskenään riippumattoman muuttujan keskiarvot samat

>
>

Ovatko kahden otoksen keskiarvot samat?

  Keskiarvo voidaan laskea mille tahansa jatkuvan asteikon muuttujalle ja miksei kokonaislukuarvoisellekin. Keskiarvolla ei kuitenkaan ole aivan samaa merkitystä muille jakautumille kuin normaalijakautuman mukaisille. Sama koskee hajontaa, joka voidaan aina laskea, mutta normaalijakautumalle hajonnalla on erityinen tulkinta.
Line: 56 to 56
  Oletetaan, että meillä on kaksi otosta, joiden voidaan olettaa olevan kotoisin normaalijakautuman mukaisesta jakautumasta. Nollahypoteesina on, että kummatkin otokset olisivat yhdestä ja samasta jakautumasta. T-testin suorittamiseksi täytyy arvioida tätä yhteistä jakautumaa laskemalla näiden kahden otoksen yhteinen keskiarvo ja vastaavasti otosten yhteinen hajonta. Sen jälkeen voimme laskea tällaisen jakautuman mukaisesti t-testin suureen arvon ja arvioida sen poikkeuksellisuutta. Itse t-testi suoritetaan funktiolla t.test(), jonka kahtena ensimmäisenä argumentteina ovat ne muuttujat, joiden keskiarvojen erilaisuutta testataan.
Deleted:
<
<

Ovatko kahden keskenään riippumattoman muuttujan hajonnat samat

Ovatko kahden samoista yksilöistä mitatun muuttujan keskiarvot tai mediaanit samat

 

Kuinka hyvin samoista yksilöistä mitattujen muuttujien yhdistelmä selittää tiettyä muuttujaa

Added:
>
>
((täydentyy))
 Lineaarinen regressio

l <- lm(formula = y ~ v2 + v3)

summary(l)

Added:
>
>
plot(l)
 

Kahden samoista yksilöistä mitatun muuttujan yhteisjakautuma

Changed:
<
<
Hajontadiagrammi, QQ-plot
>
>
((täydentyy))

Hajontadiagrammi plot(x1,x2), QQ-diagrammi qqplot(x1,x2)

 

Jatkuva muuttuja ja luokittelija

Added:
>
>
((täydentyy))
 Varianssianalyysi

Kaksi luokittelijaa ja niiden perusteella laskettuja lukumääriä

Added:
>
>
((täydentyy))
 Khin neliö -testi
Added:
>
>

Tehtävä nro 7

Tämän sivun liitteenä on havaintomatriisi kahdessa muodossa talletettuna (taulukonmuotoisena ja pilkuilla erotettuina arvoina). Ota niistä jompikumpi R:ään tutkittavaksi. Havaintomatriisissa on neljä muuttujaa X1, x2, x3 ja x4. Tutki niiden jakautumia siltä kannalta, olisivatko ne normaalijakautuman mukaisia. Kerro kustakin muuttujasta, onko se mielestäsi normaalijakautuman mukainen vai ei ja kerro lisäksi, millä perusteella (eli millä R:n komennon tai piirroksen perusteella) tulit tähän johtopäätökseen.

Tehtävä nro 8

Edellisen tehtävän aineistossa oli joitakin normaalijakautuman mukaisia muuttujia. Voidaanko olettaa, että niiden keskiarvoissa on eroa vai olisiko tavanomaista, että tällainen keskiarvojen ero tulisi tämänkokoisiin otoksiin, vaikka eroa itse asiassa ei olisikaan. Testaa vielä näistä erikseen, voisiko otos olla kotoisin jakautumasta, jonka keskiarvo on nolla.

 
Line: 88 to 103
 
Added:
>
>
  • hav1.txt: Tehtävien 7 ja 8 testiaineisto

  • hav1.csv: Tehtävien 7 ja 8 testiaineisto CSV-muodossa

META FILEATTACHMENT attachment="hav1.txt" attr="" comment="Tehtävien 7 ja 8 testiaineisto" date="1322226548" name="hav1.txt" path="hav1.txt" size="15592" stream="hav1.txt" tmpFilename="/usr/tmp/CGItemp10711" user="KimmoKoskenniemi" version="1"
META FILEATTACHMENT attachment="hav1.csv" attr="" comment="Tehtävien 7 ja 8 testiaineisto CSV-muodossa" date="1322226583" name="hav1.csv" path="hav1.csv" size="15592" stream="hav1.csv" tmpFilename="/usr/tmp/CGItemp10782" user="KimmoKoskenniemi" version="1"

Revision 52011-11-25 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
*keskeneräinen*
Line: 15 to 15
 

Tilastollisen käsittelyn perusasetelmia

Changed:
<
<
Tilastollinen testaus perustuu siihen, että havainnoista (siis havaintomatriisista) lasketaan tiettyjä *suureita, joiden jakautumasta meillä on tietoa*, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. *otos*.
>
>
Tilastollinen testaus perustuu siihen, että havainnoista (siis havaintomatriisista) lasketaan tiettyjä suureita, joiden jakautumasta meillä on tietoa, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. otos.
 
Changed:
<
<
Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, *millaiset arvot suureelle ovat tavallista ja millaiset epätavallista*. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).
>
>
Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, millaiset arvot suureelle ovat tavallista ja millaiset epätavallista. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).
 
Changed:
<
<
Normaalijakautumasta poimitun otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. *nollahypoteesia* eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.
>
>
Normaalijakautumasta poimitun otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. nollahypoteesia eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.
 

Onko muuttujan jakautuma normaali?

Oletetaan, että meillä on muuttuja F$X, joka on jatkuvalla asteikolla ja mittaa jotakin fysikaalista suuretta, esimerkiksi äänteen kestoa tai koehenkilön vastaamisen viivettä. Ensimmäinen asia, mikä kannattaa yleensä tehdä, on piirtää näkyville joko muuttujan jakautuman tiheyskäyrä plot(density(F$X)) tai kertymäkäyrä plot(ecdf(F$X)). Näitä käyriä voi silmämääräisesti verrata normaalijakautuman vastaaviin käyriin.

Changed:
<
<
Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otetaan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani (tai 1. kvartiili tms.) ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan *qq-diagrammi*.
>
>
Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otetaan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani (tai 1. kvartiili tms.) ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan qq-diagrammi.
  Jos jakautumat ovat samat, tulee ruutuun suora viiva vasemmasta alanurkasta oikeaan ylänurkkaan. Notkolla ja kuprulla oleva viiva ilmentää jakautumien välistä poikkeamaa.
Line: 35 to 35
 

Onko muuttujan keskiarvo tietty?

Changed:
<
<
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,mu=25.0). Testissä lasketaan *t-arvo*, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan *p-arvo*, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.
>
>
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,mu=25.0). Testissä lasketaan t-arvo, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan p-arvo, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.
  Kuten näistä t-testin kuvailuista huomataan, testin mielekäs käyttäminen edellyttää sitä, että muuttujamme on normaalisti jakautunut. Ohjelma tietysti laskee testin arvot mille tahansa lukusarjoille, mutta sellaisten tulosten tulkinnalle ei ole perusteita, eikä sellaisia testejä pitäisi julkaisuihin tai opinnäytteisiin laittaa.
Line: 64 to 64
  Lineaarinen regressio
Added:
>
>
l <- lm(formula = y ~ v2 + v3)

summary(l)

 

Kahden samoista yksilöistä mitatun muuttujan yhteisjakautuma

Hajontadiagrammi, QQ-plot

Revision 42011-11-25 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
*keskeneräinen*
Line: 35 to 35
 

Onko muuttujan keskiarvo tietty?

Changed:
<
<
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,25.0). Testissä lasketaan *t-arvo*, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan *p-arvo*, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.
>
>
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,mu=25.0). Testissä lasketaan *t-arvo*, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan *p-arvo*, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.
  Kuten näistä t-testin kuvailuista huomataan, testin mielekäs käyttäminen edellyttää sitä, että muuttujamme on normaalisti jakautunut. Ohjelma tietysti laskee testin arvot mille tahansa lukusarjoille, mutta sellaisten tulosten tulkinnalle ei ole perusteita, eikä sellaisia testejä pitäisi julkaisuihin tai opinnäytteisiin laittaa.

Revision 32011-11-25 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
*keskeneräinen*

CLT255: Kuudes materiaalierä

Added:
>
>

Havaintomatriiseista

Aiemmissa esimerkeissä on opittu lukemaan taulukkolaskimella tms. luotu tiedosto R:ään käsiteltäväksi joko read.table("tiedostonnimi") -komennolla (jos arvoja on erotettu välilyönneillä tai sarkainmerkeillä tai read.csv() -komennolla (jos arvot on erotettu toisitaan pilkuilla ja desimaaleja erotetaan pisteellä) tai sitten read.csv2() -komennolla (jos arvoja erotetaan toisistaan puolipisteellä ja desimaaliosaa pilkulla).

Ohjelman sisäisesti havaintomatriisi on ns. data frame -tyyppiä. Joskus olisi tarpeen tehdä tällainen havaintomatriisi R:n sisällä lasketuista muuttujista. Se onnistuu komennolla hm <- data.frame(Muuttuja1, Muuttuja2, ...) missä funktion parametreina (Muuttuja1, ...) on keskenään yhtä pitkiä vektoreita, jotka toimivat muuttujina. Havaintomatriisissa näiden vektorien nimet toimivat muuttujien niminä.

Tällainen tai mikä tahansa R:ssä oleva havaintomatriisi voidaan tulostaa komennolla write.table(hm, file="havmat.txt", sep=" ") tai write.csv(hm, file="havmat.txt") tai write.csv2(hm, file="havmat.txt") sen mukaan, minkä muotoiseksi tiedosto halutaan tulostaa (välilyönneillä, pilkuilla vaiko puolipisteillä erotettuina arvoina).

 

Tilastollisen käsittelyn perusasetelmia

Tilastollinen testaus perustuu siihen, että havainnoista (siis havaintomatriisista) lasketaan tiettyjä *suureita, joiden jakautumasta meillä on tietoa*, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. *otos*.

Revision 22011-11-24 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
Added:
>
>
*keskeneräinen*
 

CLT255: Kuudes materiaalierä

Tilastollisen käsittelyn perusasetelmia

Changed:
<
<
Tilastollinen testaus perustuu siihen, että havainnoista, siis havaintomatriisista, lasketaan tiettyjä suureita, joiden jakautumasta meillä on tietoa, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. otos.
>
>
Tilastollinen testaus perustuu siihen, että havainnoista (siis havaintomatriisista) lasketaan tiettyjä *suureita, joiden jakautumasta meillä on tietoa*, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. *otos*.
 
Changed:
<
<
Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, mitä suureen jakautumalle on tavallista tai epätavallista. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).
>
>
Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, *millaiset arvot suureelle ovat tavallista ja millaiset epätavallista*. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).
 
Changed:
<
<
Normaalijakautuman otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. nollahypoteesia eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.
>
>
Normaalijakautumasta poimitun otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. *nollahypoteesia* eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.
 

Onko muuttujan jakautuma normaali?

Oletetaan, että meillä on muuttuja F$X, joka on jatkuvalla asteikolla ja mittaa jotakin fysikaalista suuretta, esimerkiksi äänteen kestoa tai koehenkilön vastaamisen viivettä. Ensimmäinen asia, mikä kannattaa yleensä tehdä, on piirtää näkyville joko muuttujan jakautuman tiheyskäyrä plot(density(F$X)) tai kertymäkäyrä plot(ecdf(F$X)). Näitä käyriä voi silmämääräisesti verrata normaalijakautuman vastaaviin käyriin.

Changed:
<
<
Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otataan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan qq-diagrammi.
>
>
Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otetaan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani (tai 1. kvartiili tms.) ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan *qq-diagrammi*.
  Jos jakautumat ovat samat, tulee ruutuun suora viiva vasemmasta alanurkasta oikeaan ylänurkkaan. Notkolla ja kuprulla oleva viiva ilmentää jakautumien välistä poikkeamaa.
Line: 24 to 26
 

Onko muuttujan keskiarvo tietty?

Changed:
<
<
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean().
>
>
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,25.0). Testissä lasketaan *t-arvo*, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan *p-arvo*, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.

Kuten näistä t-testin kuvailuista huomataan, testin mielekäs käyttäminen edellyttää sitä, että muuttujamme on normaalisti jakautunut. Ohjelma tietysti laskee testin arvot mille tahansa lukusarjoille, mutta sellaisten tulosten tulkinnalle ei ole perusteita, eikä sellaisia testejä pitäisi julkaisuihin tai opinnäytteisiin laittaa.

Ovatko kahden keskenään riippumattoman muuttujan jakautumat samat?

 
Changed:
<
<

Ovatko kahden keskenään riippumattoman muuttujan jakautumat samat

>
>
Yllä käsiteltiin qq-diagrammia, jollainen voidaan piirtää mille tahansa kahdelle jatkuvalla asteikolla olevien muuttujien otokselle riippumatta siitä, millaisesta jakautumasta otokset ovat kotoisin. Jos otokset ovat kotoisin samasta jakautumasta, niiden kertymäfunktioiden tulisi olla samankaltaisia. Vastaavasti, jos otokset ovat kotoisin jollakin tavalla erilaisista jakautumista, kertymäfunktioissa on ainakin jossakin kohdassa eroa.
 
Changed:
<
<
Kolmogorovin ja Smirnovin testi
>
>
Kolmogorovin ja Smirnovin testissä laskettava suure on kahden otoksen kertymäfunktioiden maksimiero, eli etsitään muuttujien asteikolta sellaisia kohtia, joissa toisessa otoksessa on suurempi (tai yhtä hyvin pienempi) prosentti tätä arvoa pienempiä arvoja kuin toisessa. Testi mittaa suurinta eroa, joka koko jakautumassa näiden kertymäfunktioiden välissä on.

Kolmogorovin ja Smirnovin testi on ns. ei-parametrinen (nonparametric) eli sitä voidaan käyttää riippumatta siitä, millaista jakautumaa muuttujat noudattavat. Erityisesti normaalijakautumaa ei tarvitse olettaa, eikä ole haittaa, vaikka jakautuma ei olisikaan normaalinen.

 

Ovatko kahden keskenään riippumattoman muuttujan keskiarvot samat

Changed:
<
<
T-testi
>
>
Keskiarvo voidaan laskea mille tahansa jatkuvan asteikon muuttujalle ja miksei kokonaislukuarvoisellekin. Keskiarvolla ei kuitenkaan ole aivan samaa merkitystä muille jakautumille kuin normaalijakautuman mukaisille. Sama koskee hajontaa, joka voidaan aina laskea, mutta normaalijakautumalle hajonnalla on erityinen tulkinta.

Muille, siis ei-normaalisille jatkuvan asteikon jakautumille on muita tunnuslukuja, jotka voivat olla sopivampia. Hyvin yleispäteviä ovat mediaani (arvo, jota pienempiä puolet havainnoista on), kvartiilit (arvo, jota pienempiä 1/4, 2/4 tai 3/4 havainnoista on) ym.

Oletetaan, että meillä on kaksi otosta, joiden voidaan olettaa olevan kotoisin normaalijakautuman mukaisesta jakautumasta. Nollahypoteesina on, että kummatkin otokset olisivat yhdestä ja samasta jakautumasta. T-testin suorittamiseksi täytyy arvioida tätä yhteistä jakautumaa laskemalla näiden kahden otoksen yhteinen keskiarvo ja vastaavasti otosten yhteinen hajonta. Sen jälkeen voimme laskea tällaisen jakautuman mukaisesti t-testin suureen arvon ja arvioida sen poikkeuksellisuutta. Itse t-testi suoritetaan funktiolla t.test(), jonka kahtena ensimmäisenä argumentteina ovat ne muuttujat, joiden keskiarvojen erilaisuutta testataan.

 

Ovatko kahden keskenään riippumattoman muuttujan hajonnat samat

Revision 12011-11-24 - KimmoKoskenniemi

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="HyClt255s2011"

CLT255: Kuudes materiaalierä

Tilastollisen käsittelyn perusasetelmia

Tilastollinen testaus perustuu siihen, että havainnoista, siis havaintomatriisista, lasketaan tiettyjä suureita, joiden jakautumasta meillä on tietoa, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. otos.

Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, mitä suureen jakautumalle on tavallista tai epätavallista. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).

Normaalijakautuman otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. nollahypoteesia eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.

Onko muuttujan jakautuma normaali?

Oletetaan, että meillä on muuttuja F$X, joka on jatkuvalla asteikolla ja mittaa jotakin fysikaalista suuretta, esimerkiksi äänteen kestoa tai koehenkilön vastaamisen viivettä. Ensimmäinen asia, mikä kannattaa yleensä tehdä, on piirtää näkyville joko muuttujan jakautuman tiheyskäyrä plot(density(F$X)) tai kertymäkäyrä plot(ecdf(F$X)). Näitä käyriä voi silmämääräisesti verrata normaalijakautuman vastaaviin käyriin.

Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otataan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan qq-diagrammi.

Jos jakautumat ovat samat, tulee ruutuun suora viiva vasemmasta alanurkasta oikeaan ylänurkkaan. Notkolla ja kuprulla oleva viiva ilmentää jakautumien välistä poikkeamaa.

Jos halutaan verrata yhdestä muuttujasta saatua jakautumaa normaalijakautumaan, voidaan käyttää R:n valmista funktiota qqnorm(F$X), joka piirtää toiselle akselille tämän teoreettisen jakautuman mukaisia kvantiileja ja toiselle oman muuttujamme mukaiset. Suora viiva osoittaisi jakautumamme normaalisuutta.

Onko muuttujan keskiarvo tietty?

Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean().

Ovatko kahden keskenään riippumattoman muuttujan jakautumat samat

Kolmogorovin ja Smirnovin testi

Ovatko kahden keskenään riippumattoman muuttujan keskiarvot samat

T-testi

Ovatko kahden keskenään riippumattoman muuttujan hajonnat samat

Ovatko kahden samoista yksilöistä mitatun muuttujan keskiarvot tai mediaanit samat

Kuinka hyvin samoista yksilöistä mitattujen muuttujien yhdistelmä selittää tiettyä muuttujaa

Lineaarinen regressio

Kahden samoista yksilöistä mitatun muuttujan yhteisjakautuma

Hajontadiagrammi, QQ-plot

Jatkuva muuttuja ja luokittelija

Varianssianalyysi

Kaksi luokittelijaa ja niiden perusteella laskettuja lukumääriä

Khin neliö -testi


-- KimmoKoskenniemi - 2011-11-24

<--

-->
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback