CLT255: Seitsemäs materiaalierä

Tilastollisen käsittelyn perusasetelmia (jatkoa)

Aiemmassa materiaalierässä käsiteltiin enimmäkseen yksittäisiä otoksia, jotka olivat itsenäisiä. Tällaisia voisivat olla esimerkiksi tietynikäisistä tytöistä ja pojista kerätyt otokset, joissa mitataan vaikkapa heidän englannin kielen luetun tekstin ymmärtämistä. Kummassakin otoksessa on eri yksilöt, eikä otosten tarvitse olla edes yhtä suuria.

Seuraavassa tarkastellaan lähemmin aineistoja, joissa samoista yksilöistä on mitattu erilaisia asioita. Esimerkkinä voisi olla taaskin tietynikäisiä lapsia, mutta kultakin lapselta olisi mitattu esimerkiksi pituus ja paino. Sitä onko kyseessä tyttö vai poika ilmaistaan luokittelumuuttujalla, joka tässä tapauksessa saa kahta arvoa, vaikkapa "T" ja "P".

Tällaisessa asetelmassa voitaisiin selvittää miten pituus ja paino näyttäisivät vaikuttavan toisiinsa. Lisäksi tietysti tyttöjä ja poikia voidaan käsitellä ryhminä kuten aiemminkin.

Kuinka hyvin samoista yksilöistä mitattujen muuttujien yhdistelmä selittää tiettyä muuttujaa

Korrelaatiokerroin kuvaa kahden muuttujan välistä vuorovaikutusta asteikolla -1 ... +1. Kerroin lasketaan otoksesta matematiikan kielellä siten, että muuttujille $x$ ja $y$ lasketaan ensin keskiarvot $\mu_x$ ja $\mu_y$ sekä niiden hajonnat $\sigma_x$ ja $\sigma_y$. Sen jälkeen korrelaatiokerroin $\rho_{xy}$ saadaan summana:

\[\rho_{xy} = \frac{1}{n}\sum_{i=1}^n\frac{(x_i - \mu_x)}{\sigma_x}\frac{(y_i - \mu_y)}{\sigma_y}\]

Kaavastakin nähdään, että korrelaatiokerroin huomioi sellaisia tapauksia, joissa näiden kahden muuttujan arvot samassa havainnossa ovat keskiarvoa suurempia tai pienempiä. Molemmista kerroin kasvaa, jos tällaisia samasuuntaisia on valtaosassa havaintoja. Korrelaatiokerroin lähenee silloin arvoa 1. Arvot voivat kulkea myös vastakkaisiin suuntiin, jolloin x:n suurta arvoa vastaa y:n pieni arvo. Korrelaation sanotaan silloinkin olevan voimakas, mutta kertoimen arvo lähenee silloin arvoa -1. Heikoksi sanotaan korrelaatiota, jossa toisen muuttujan suurta arvoa vastaa toisessa muuttujassa yhtä lailla pieniä ja suuria arvoja. Korrelaatiokerron on silloin nollan tienoolla.

R:n kielellä korrelaatiokertoimen laskenta ilmaistaan siten, että kahden muuttujan x ja y välinen korrelaatiokerroin lasketaan komennolla cor(x,y). Muuttujat ovat siis keskenään yhtä pitkiä vektoreita, joiden arvot ovat jatkuvalla asteikolla. Korrelaatiokerrointa voidaan tulkita, jos molempien muuttujien jakautuma on normaalinen.

Korrelaatiokertoimen neliön voi tulkita merkitsevän selitysastetta eli sitä kuinka suuren osuuden toinen muuttujista selittää toisen muuttujan vaihtelusta. Aineistossa on useinkin enemmänkin mahdollisia selittäviä muuttujia, joiden yhteisvaikutuksella voidaan selittää tietyn muuttujan vaihtelua.

Lineaarinen regressiomalli olettaa, että ennustus selitettävän muuttujan $y$ arvoksi voidaan laatia ns. lineaarisella yhdistelmällä selitettävistä muuttujista, siis kullekin selittävälle muuttujalle $x_1, x2, ..., x_k$ valitusta kertoimesta ynnä yhdestä yhteisestä vakiotermistä seuraavaan tapaan:

\[y' = a_1 x_1 + a_2 x_2 + ... + a_k x_k + c\]

Kaikista mahdollisista kertoimista ja vakioista etsitään ne, jotka tuottavat parhaan ennustuksen eli ne, joilla laskettuna selittävistä muuttujista saadaan paras arvaus selitettävän muuttujan arvoksi (joka havaintomatriisissa on). Parhaana kaavana pidetään sitä, jossa poikkeaman neliöiden summa kaavan ennustusten ja havaittujen arvojen välillä on pienimmillään:

\[\sum_{i=1}^n(y_i - (a_1 x_1 + a_2 x_2 + ... + a_k x_k + c))^2\]

Kertoimet ja vakio $a_1, a_2, ..., a_k, c$ määrätään siis siten että yllä oleva summa minimoituu.

R:n kielellä tämä lineaarinen regressiomalli ilmaistaan funktiolla lm, jolle annetaan kaava. Kaavassa on aaltoviiva, jonka vasemmalla puolella on selitettävä muuttuja (y) ja oikealla puolella selittävät muuttujat (v2 ja v3):

l <- lm(formula = y ~ v2 + v3)
summary(l)
plot(l)

Ensimmäinen komento laskee lineaarisen regressiomallin ja tulostaa siitä muutamia seikkoja. Toinen komento (summary(l)) antaa hieman enemmän analyysiin liittyviä tunnuslukuja. Komennolla plot(l) saadaan yksityiskohtia lineaarisen mallin sovittamisesta. Kiinnostavinta lienee jäännösvirheen (residual) käyttäytyminen selitettävän muuttujan arvojen asteikolla. Jos virheet jakautuvat tasapaksusti, niin normaalisuuteen ja lineaarisuuteen liittyvät oletukset täyttynevät. Jos selitettävän muuttujan suurilla tai pienillä arvoilla on piirroksessa kaarroksia tai muita mutkia, selitysmallissa tai selittävissä muuttujissa voi olla vikaa.

Joskus muuttujat ovat sellaisia, että ne jakautuvat jotenkin toispuoleisesti asteikolleen. Tarkastellaan aineistoa, jonka muodostaa jossakin isohkossa korpuksessa olevat erilaiset sananmuodot ja yhdeksi muuttujaksi kyseisen sananmuodon frekvenssin korpuksessa. Yleisimpien sananmuotojen frekvenssit voivat olla tuhansia, mutta edettäessä kohti harvinaisempia sananmuotoja, frekvenssit putoavat pian ja loppupäässä on paljon kakkosia ja lopussa vielä enemmän ykkösiä. Tällaisen muuttujan jakautuman piirtäminenkin on hankalaa, kun samasta kuvasta pitäisi hahmottaa yhden yksikön eroja alapäässä ja kymmenen tuhannen suuruuksia yläpäässä. Usein tehdään muuttujalle muunnoksia, esim. otetaan logaritmi. Tällainen muunnos voi tehdä muuttujan jakaumasta normaalisemman ja lisäksi muunnettu muuttuja voi toimia paremmin lineaarimallin selittävänä muuttujana.

Kahden samoista yksilöistä mitatun muuttujan yhteisjakautuma

((täydentyy))

Hajontadiagrammi plot(x1,x2), QQ-diagrammi qqplot(x1,x2)

Jatkuva muuttuja ja luokittelija

((täydentyy))

Varianssianalyysi

Kaksi luokittelijaa ja niiden perusteella laskettuja lukumääriä

((täydentyy))

Jos molempien muuttujien arvot ovat vain nominaaliasteikolla, niin silloin voidaan arvioida lähinnä kappalemääriä. Usein niitä on helppo tarkastella aivan perinteisenä lukuarvoista koostuvana taulukkona, jollainen voidaan laskea esim. muuttujista x3 ja x5 komennolla table(x3, x5), jolla saadaan haluttu taulukko.

Visuaalisesti kahden luokittelijan yhteisvaikutusta näihin kappalemääriin voidaan tarkastella komennolla plot(table(x3,x5)), joka piiirtää laatikon kullekin luokittelijoiden arvojen yhdistelmälle. Laatikon koko on verrannollinen kappalemäärään ja laatikot on järjestetty riveiksi ja sarakkeiksi saman luokittelija-arvon mukaan. Jos muuttujat olisivat riippumattomia, niin laatikot muodostaisivat siistejä rivejä ja sarakkeita eli niiden reunat olisivat samassa linjassa. Mutta kun yhteisvaikutuksia esiintyy, on kuviossa isompia tai penempiä laatikoita.

Khin neliö -testi

-- KimmoKoskenniemi - 2011-11-26

 
Topic revision: r2 - 2013-08-17 - TWikiGuest
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback