Difference: HyClt255s2011L06 (4 vs. 5)

Revision 52011-11-25 - KimmoKoskenniemi

Line: 1 to 1
 
META TOPICPARENT name="HyClt255s2011"
*keskeneräinen*
Line: 15 to 15
 

Tilastollisen käsittelyn perusasetelmia

Changed:
<
<
Tilastollinen testaus perustuu siihen, että havainnoista (siis havaintomatriisista) lasketaan tiettyjä *suureita, joiden jakautumasta meillä on tietoa*, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. *otos*.
>
>
Tilastollinen testaus perustuu siihen, että havainnoista (siis havaintomatriisista) lasketaan tiettyjä suureita, joiden jakautumasta meillä on tietoa, ainakin tiettyjen oletusten vallitessa. Oletetaan, että meillä esimerkiksi olisi tuotantoprosessi, jossa tehdään lakritsipatukoita ja että pidemmän ajan kuluessa on todettu, että patukoiden koolla on tietty toivottu keskiarvo. Yksittäisten patukoiden kokojen on myös havaittu noudattavan normaalijakautuma tuolla keskiarvolla ja tietyllä hajonnalla. Kone ei kuitenkaan aina toimi samalla tavalla ja tehtailija haluaisi saada luotettavaa tietoa siitä, toimiiko kone nyt kuten tavallisesti, vai onko jotakin poikkeavaa meneillään. Yhden vähän pienemmän tai suuremman patukan esiintyminen on aina mahdollista, joten meidän pitää ottaa useampia eli ns. otos.
 
Changed:
<
<
Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, *millaiset arvot suureelle ovat tavallista ja millaiset epätavallista*. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).
>
>
Tilastotieteen avulla voimme laskea näillä oletuksilla tietynkokoisten otosten keskiarvon jakautuman. Kun tiedämme tämän otoksesta johdetun suureen jakautuman, voimme arvioida sitä siihen, millaiset arvot suureelle ovat tavallista ja millaiset epätavallista. Jos suure saa arvon, jotka on pienempi kuin melkein kaikki arvot, voimme epäillä systemaattista poikkeamaa. Vastaavasti myös, jos arvo on suuri. Jakautuman suhteen poikkeava arvo tarkoittaa sitä, että jos ottaisimme tästä teoreettisesta jakautumasta arvoja, niin esim. 99 % tapauksista arvo ei olisi näin pieni (tai suuri).
 
Changed:
<
<
Normaalijakautumasta poimitun otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. *nollahypoteesia* eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.
>
>
Normaalijakautumasta poimitun otoksen keskiarvo sattuu noudattamaan myös normaalijakautumaa, mutta muille testisuureille niiden jakautumat ovat omanlaisiaan. Tilastollinen testi perustuu aina siihen, että lasketun suureen jakautuma voidaan laskea (edellyttäen, että muuttuja noudattaa tiettyä jakautumaa ym.). Olettamus vastaa yleensä ns. nollahypoteesia eli esimerkiksi sitä, että juuri nyt lakritsipatukkakone tuottaa samalla tavoin jakautuneita patukoita kuin normaalisti. Testi sanoo, kuinka epätavallinen tuo otoksella saatu arvo olisi tämän oletuksen ollessa voimassa.
 

Onko muuttujan jakautuma normaali?

Oletetaan, että meillä on muuttuja F$X, joka on jatkuvalla asteikolla ja mittaa jotakin fysikaalista suuretta, esimerkiksi äänteen kestoa tai koehenkilön vastaamisen viivettä. Ensimmäinen asia, mikä kannattaa yleensä tehdä, on piirtää näkyville joko muuttujan jakautuman tiheyskäyrä plot(density(F$X)) tai kertymäkäyrä plot(ecdf(F$X)). Näitä käyriä voi silmämääräisesti verrata normaalijakautuman vastaaviin käyriin.

Changed:
<
<
Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otetaan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani (tai 1. kvartiili tms.) ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan *qq-diagrammi*.
>
>
Jakautuman silmämääräistä tarkastelua parempi keino normaalisuuden arvioimiseksi on ns. kvantiili-kvantiili -diagrammi (qq-plot, quantile-quantile plot). Tällaisessa diagrammissa piirretään kahden jakautuman kertymäfunktiot samaan ruutuun siten, että toisen jakautuma on vaaka- eli x-akselilla ja toisen pysty- eli y-akselilla. Nyt otetaan samaa jakautuman osuutta vastaavia pisteitä, siis esim. kohdat, joissa on kummankin mediaani (tai 1. kvartiili tms.) ja piirretään ruutuun piste siihen kohtaan, jonka x-koordinaattina on ensimmäisen ja y-koordinaattina jälkimmäisen muuttujan mediaani. Piirtämällä muutkin kuin tämä 50 % vastaava piste, saadaan qq-diagrammi.
  Jos jakautumat ovat samat, tulee ruutuun suora viiva vasemmasta alanurkasta oikeaan ylänurkkaan. Notkolla ja kuprulla oleva viiva ilmentää jakautumien välistä poikkeamaa.
Line: 35 to 35
 

Onko muuttujan keskiarvo tietty?

Changed:
<
<
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,mu=25.0). Testissä lasketaan *t-arvo*, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan *p-arvo*, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.
>
>
Keskiarvon saa jo summary() -funktiolla, mutta sitä varten on toki oma funktionsa mean(). Lakritsikoneen tarkkailussa meillä oli tiedossa etukäteen, miten painavia patukoiden pitäisi keskimäärin olla. Nollahypoteesi olisi siis, että otoksemme keskiarvo on juuri tuo haluttu arvo. Studentin t-testistä on erikseen versio, jossa testataan juuri tätä: t.test(F$X,mu=25.0). Testissä lasketaan t-arvo, jonka jakautuma voidaan johtaa normaalijakautumasta. Meille kiinnostavana tuloksena annetaan p-arvo, jonka suuruudesta päättelemme, olisiko nollahypoteesin vallitessa epätavallista saada näin suuri tai pieni t-arvo. Pieni arvo tarkoittaa sitä, että t-arvo olisi noin epätodennäköinen, eli p-arvo, joka on pienempi kuin 0,01 tarkoittaa sitä, että t-arvo saa näin poikkeavia (tai vielä enemmän poikkeavia) arvoja vain harvemmin kuin kerran sadasta.
  Kuten näistä t-testin kuvailuista huomataan, testin mielekäs käyttäminen edellyttää sitä, että muuttujamme on normaalisti jakautunut. Ohjelma tietysti laskee testin arvot mille tahansa lukusarjoille, mutta sellaisten tulosten tulkinnalle ei ole perusteita, eikä sellaisia testejä pitäisi julkaisuihin tai opinnäytteisiin laittaa.
Line: 64 to 64
  Lineaarinen regressio
Added:
>
>
l <- lm(formula = y ~ v2 + v3)

summary(l)

 

Kahden samoista yksilöistä mitatun muuttujan yhteisjakautuma

Hajontadiagrammi, QQ-plot

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback