Korrelaatiokerroin (eng. correlation coefficient)

Halutaan tietää onko kahden muuttujien välissä vuorovaikutusta. Pearsonin korrelaatiokerroin on symeetrinen mitta, eli on sama kumpi muuttuja on ensimmäisenä ja kumpi toisena. Kerrointa merkitaan "r" kirjaimella otoksille tai kreikkalaisella rholla populaatioille.

Kerroin lasketaan jakamalla kovarianssi muuttujien keskihajontojen tulolla.

Yleisin kaava olisi siis:

r_{XY} = \frac{\mathrm{cov}(X, Y)}{\sigma_X\sigma_Y}(1.)

ja tarkemmin kaava olisi:

\[\rho_{xy} = \frac{1}{n}\sum_{i=1}^n\frac{(x_i - \mu_x)}{\sigma_x}\frac{(y_i - \mu_y)}{\sigma_y}\](2.)

missä $\mu_x$ ja $\mu_y$ tarkoivat muuttujien keskiarvoja ja $\sigma_x$ ja $\sigma_y$ niiden hajontoja.

Esimerkkejä käyttötarkoituksesta:

  • Elävä esimerkki: halutaan tarkistaa onko vuorovaikutusta naimisiin menevien naisten ja miesten ikien välissä
  • Lingvistinen esimerkki: onko vuorovaikutusta äänen korkeuden ja ihmisen pituuden välissä

Käytön edellytykset ja oletukset:

  1. kaksi muuttujaa X ja Y joiden arvot havainnossa on riippumattiomia
  2. havainnolla pitää olla normaalijakauma
  3. X:n ja Y:n suhteen pitää olla lineaarinen. (sen voi nopeasti nähdä vaikka piirtämällä)

Korrelaatiokerrointa on monta:

  • Spearmanin järjestyskorrelaatiokerroin
  • Kendallin järjestyskorrelaatiokerroin
Ennen kun valitsee millä tavalla haluaa tutkia muuttujien suhdetta, kannattaa katsoa minkä muotoinen se havainto on.

Tärkeimmät erityispiirteet suhteessa muihin

Pearsonin testissä X:n ja Y:n suhteen pitää olla lineaarinen. Spearmanin ja Kendallin testeihin voi käyttää havintoja, jotka mitattiin ordinaaliasteikolla, eli ryhmittäin. Jos yksi muuttuja on lineaarinen ja toinen ordinaali, lineaaristä voi muuttaa ordinaaliksi (sille on eri kaava).

Testin palauttamat arvot

Testin arvon skaala on -1...1. 0 tarkoittaa muuttujien täydellistä riippomattomuutta. Jos kerroin on -1 lähellä, se tarkoittaa negatiivista korrelaatiota, eli X:n isoille arvoille vastaavat Y:n pienet arvot ja toisinpäin. Jos kerroin on 1 lähellä, se tarkoittaa positiivista korrelaatiota, eli X:n isoille arvoille vastaavat Y:n isot arvot.

Havainnollinnen käyttöesimerkki R:llä

R:llä voi laskea Pearsonin korrelaatiokerroimen käyttämällä funktiota cor(x,y). HUOM! samaa funktiota käytetään laskemalla toisiakin korrelaatiokertoimia, mutta silloin pitää lisätä parametreja.

Tässä näytän Johnsonin kirjan mukaan miten voi laskea onko vuorovaikutusta ääntöväylän ja resonanssi taajuuden välissä. Havainnoksi mitattiin resonanssin matalinta taajuutta viidelle vokaalille: 'a', 'o', 'u', 'i', 'e'. Havainnon saat tästä sivusta: http://eu.wiley.com/WileyCDA/WileyTitle/productCd-1405144246,descCd-DOWNLOAD.html Se on tiedosto F1_data.txt joka löytyy 2. Patterns and Tests otsikon alla. Arvoja mitattiin miehille ja naisille neljässä eri kielissä.

f1data=read.delim("C:/Users/Edit/praca/2patterns_tests/F1_data.txt")

attach(f1data)

voidaan laskea kovarianssi

cov(male, female)

[1] 33161.79

ja korrelaatio

cor(male, female)

[1] 0.9738566

Arvojen tulkinta

0.9738566 tarkoittaa, että korrelaatio on positiivinen ja aika vahva, koska se on 1. lähellä.

Korrelaation vahvuuden tulkinnat vaihtelevat aika paljon. Otetaan kerroimen itseisarvio. Joskus skaalaksi kelpaa, että:

0 - 0,2 melkein ei havaitse vuorovaikutusta

0,2 - 0,4 heikko lineaari vuorovaikutus

0,4 - 0,6 keskimääräinen vuorovaikutus

0,6 - 0,8 vahva vuorovaikutus

0,8 - 1 oikein vahva vuorovaikutus 1 täydellinen vuorovaikutus, eli havainto muodostaa suoraa viivaa.

Joskus käytetään vain kolmeasteista skaalaa. Lääketieteessä 0,5 arvoa pidetään aika usein vahvana, taloustieteessa vasta 0,9 olisi vasta tyydyttävä, mutta ei fyysikoille, jotka ovat oikein tarkkoja.

.

Merkitsevyyden tunnistaminen arvoista

Tässä tiedostossa sivulla 13(180) on taulukko, joka auttaa arvojen merkitsevyyden tulkinta. http://www.uwe.ac.uk/hlss/llas/statistics-in-linguistics/Appenix1.pdf Havainnossa on 19 pareja. Jos kiinnostaa merkitsevyys on 5% tasolla korrelaation itseisarvon pitäisi olla 0.389 täsmä tai isompi, mikä pitää tässä tapauksessa paikkansa.

Lähteet:

Kaavojen lähteet:

  1. [http://upload.wikimedia.org/wikipedia/pl/math/4/d/e/4de78da2974ca1fca61c7217e087bc04.png]
  2. [https://kitwiki.csc.fi/twiki/pub/KitWiki/HyClt255s2011L07/latexead9f35c78e6c55ca8b7fb7e3ffe7861.png]

Ensimmäinen kommentti

Alustava kommentti Juholta

Tässä on hyvä alku aiheeseen ja selitystapa on mielestäni hyvä.

Toinen kommentti

Kommentti Erkiltä: Todella hyvin ilmaistu kaikki olennaiset asiat. Arvojen tulkinta-kappaleessa skaalan arvot voivat ymmärtääkseni olla siis myös negatiivisia ilman että tulkinta muuttuu miksikään. Edytan komentti: Kiitos, lisäsin, että puhutan itseisarvoista.

-- EdytaJurkiewicz - 2012-09-28

Topic revision: r15 - 2012-11-13 - EdytaJurkiewicz
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback