Spearman's rank correlation coefficient

Käyttötarkoitus

Spearmanin järjestyskorrelaatiokerroin on tapa mitata kahden muuttujan välistä riippuvuutta. Yleensä Spearmanin järjestyskorrelaatiokerrointa käytettäessä vähintään toisen muuttujan on oltava järjestysasteikollinen. Spearmanin järjestyskorrelaatiokerrointa merkitään usein kreikan kielen kirjaimella rho tai merkinnällä r ja alaindeksi s.

Kerrointa laskettaessa tarkastellaan kahden muuttujan muodostamia pareja. Kun muuttujat ovat X ja Y, tarkastellaan pareja (X1,Y1), (X2,Y2) jne. Aluksi muuttujat on muutettava järjestysasteikkoon siten, että X:n pienin arvo muutetaan arvoksi x1 = 1, toiseksi suurimmasta saadaan x2 = 2 jne. Sama tehdään muuttujalle Y.

Esim.

  • X x
  • 14 3
  • 17 4
  • 10 2
  • 4 1
  • 18 (5+6)/2=5,5
  • 18 (5+6)/2=5,5

Jos kaksi tai useampi X:n arvoa ovat samat, x:ksi valitaan näiden järjestyslukujen keskiarvo.

Tämän jälkeen itse kerroin lasketaan seuraavalla kaavalla:

[1]

Tämä on itse asiassa sama kaava kuin Pearsonin korrelaatiokertoimella, mutta järjestysluvuiksi muutetuilla arvoilla.

Mikäli alkuperäisen muuttujan arvot eivät saa samoja arvoja, voidaan käyttää yksinkertaisempaa kaavaa:

[1]

Tässä di = xi - yi, jossa xi ja di ovat siis järjestyslukuja.

Luojolan esimerkissä tätä jälkimmäistäkin kaavaa käytetään, vaikka alkuperäisissä muuttujissa oli samoja arvoja. Alemman kaavan käytöstä siis lienee useita näkemyksiä.

Esimerkkejä käyttötarkoituksesta

Luojola mainitsee teoksessaan esimerkin, jossa tarkastellaan sitä, miten ikä vaikuttaa vieraan kielen kielioppisääntöjen oppimiseen. Kielenoppijat jaetaan ryhmiin iän perusteella. Jokaiselle ryhmälle lasketaan tarkkuusprosentti kielioppisäännön osaamista koskevassa testissä ja säännöille annetaan järjestysnumero sen perusteella miten hyvin ne osattiin. Parhaiten osattu sääntö saa järjestysnumeron 1, toiseksi parhaiten 2, jne. Nyt eri ikäryhmien välille voidaan laskea Spearmanin järjestyskorrelaatiokerroin, joka on sitä suurempi, mitä enemmän säännöt hallitaan samalla tavalla eri ryhmissä. Jos siis esimerkiksi ryhmässä A1 (keski-ikä 11 vuotta) ja B1 (keski-ikä 13 vuotta) säännöt ovat täsmälleen samassa järjestyksessä osaamisen perusteella, saadaan kertoimeksi 1.

Tutkimuksen lopputulos on, että ryhmien väliset kertoimet ovat varsin lähellä ykköstä, joten ikä ei vaikuttane juurikaan sääntöjen oppimiseen.

Käytön edellytykset ja oletukset

Spearmanin korrelaatiokerrointa voidaan käyttää, vaikka X:n ja Y:n jakaumaa ei tunnettaisi.

Samankaltaiset menetelmät

Myös Pearsonin korrelaatiokerroin mittaa kahden muuttujan välistä riippuvuutta ja itse asiassa Spearmanin korrelaatiokertoimen kaava on sama kuin Pearsonin korrelaatiokertoimelle. Vain käytetyt muuttujat eroavat.

Tärkeimmät erityispiirteet suhteessa muihin

Pearsonin korrelaatiokerroin mittaa kuinka lineaarisesti X ja Y ovat riippuvaisia, kun taas Spearmanin korrelaatiokerroin mittaa vain X:n ja Y:n järjestysten korrelaatiota.

Testin palauttamat arvot ja arvojen tulkinta

Spearmanin korrelaatiokerroin saa arvoja välillä [-1, 1]. -1:llä X ja Y ovat täysin päinvastaisessa järjestyksessä, 1:llä taas täsmälleen samassa järjestyksessä. Jos kerroin on 0, mitään riippuvuutta ei ole havaittavissa.

Havainnollinen käyttöesimerkki R:llä

R:ssä on oma komento Spearmanin korrelaatiokertoimen laskemiseksi: cor(var1, var2, method = "spearman"), jossa var1 ja var2 ovat vektoreita, jotka sisältävät tutkittavat muuttujat. Jos halutaan myös testata tuloksen merkitsevyyttä, käytetään komentoa cor.test(var1, var2, method = "spearman").

Jos meillä on vaikkapa seuraavanlainen taulukko, joka kertoo kuuden henkilön sijoittumisen kahdessa kilpailussa, voidaan laskea miten hyvin menestyminen ensimmäisessä kilpailussa korreloi toisessa kilpailussa menestymisen kanssa:

> a
  Kilpailu.1 Kilpailu.2
1          3          2
2          1          1
3          2          3
4          4          5
5          5          4
6          6          6

> b = cor.test(a$Kilpailu.1, a$Kilpailu.2, method = "spearman")
> b

        Spearman's rank correlation rho

data:  a$Kilpailu.1 and a$Kilpailu.2 
S = 4, p-value = 0.03333
alternative hypothesis: true rho is not equal to 0 
sample estimates:
      rho 
0.8857143 

Rho on noin 0,89, joten korrelaatio vaikuttaisi olevan olemassa. Tuloksen merkitsevyyttä voi selvittää p-arvon avulla.

Merkitsevyyden tunnistaminen arvoista

Vaikka korrelaatiokerroin olisikin selvitetty, ei vielä tiedetä ovatko tulokset tilastollisesti merkittäviä. Spearmanin korrelaatiokertoimen tapauksessa nollahypoteesiksi ajatellaan se tilanne, jossa jokaista muuttujan järjestystä vastaa yhtä todennäköisesti mikä tahansa muu toisen muuttujan järjestys. Muuttujat ovat siis toisistaan täysin riippumattomia.

Todennäköisyys, että nollahypoteesi pitää paikkaansa ja että tulokset on saatu sattumalta eli p-arvo näkyy suoraan R:n testissä.

P-arvoa tulkitaan usein siten, että korelaatio on tilastollisesti melkein merkitsevä, kun se on alle 0,05, merkitsevä kun se on alle 0,01 ja erittäin merkitsevä kun se on alle 0,001.

Ensimmäinen kommentti

Alustava komentti Edytalta. Näyttää, että sivusi on valmis. Kaikki hyvin selitetty. Jos haluat vielä lisätä jotakin, voisit kertoa, mikä on siis p-arvon tulkinta esimerkissäsi, niin henkilö, joka ei ole vielä p-arvosta paljon lukenut voi oppia sitä myös vähän artikkelistasi. --Edyta Jurkiewicz

Toinen kommentti

Alustava kommentti Maijalta. Kaikki oleellinen tuntuu tulevan esille tekstissä. Asia tulee ymmärretyksi ja esimerkkejä käytöstä löytyy jopa kahdesta eri kohdasta. Ehkä sivulla voisi olla enemmän testin palauttamista arvoista kuten p-valuesta ja S:stä. S-arvo ei välttämättä ole kovinkaan hyödyllinen, mutta olisi kiinnostavaa tietää, mitä se merkitsee.

Käytetyt lähteet

-- JuhaHakkanen - 2012-10-02

Topic revision: r9 - 2012-10-11 - JuhaHakkanen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback