CLT255: Neljäs luentokerta

Havaintomatriisi ja puuttuvat tiedot

Olemme nähneet, miten tietoja voidaan esittää havaintomatriiseina eli havaintoyksiköitä vastaavina riveinä ja muuttujia vastaavina sarakkeina. Esimerkeissä tuli vastaan myös tapauksia, joissa tietyille havainnoille ei ollut joillekin muuttujille edes mahdollista määritellä mielekästä arvoa. Esimerkiksi HKV-korpuksessa on muuttujia, jotka kuvaavat sivulauseen ominaisuuksia, eivätkä ne ole relevantteja päälauseille, joita vastaavia rivejä eli havaintoja aineistossa toki oli runsaasti. Tilastollisessa käsittelyssä on toisenkinlaisia puuttuvia tietoja nimittäin sellaisia, joissa havaintoarvo on vain hukkunut tai syystä tai toisesta jäänyt saamatta.

Tilasto-ohjelmat ovat yleensä hyvin varautuneet puuttuvien tietojen käsittelyyn, niin myös R-ohjelma. R:ssä puuttuvan tiedon merkkinä on NA (joka ei ole R:n sisällä merkkijono vaan erityinen arvo, jonka ohjelma näyttää tuolla tavoin). Tilasto-ohjelmat ovat varautuneet (ainakin pyydettäessä) laskemaan mediaanit, keskiarvot, hajonnat ja taulukot ikään kuin puuttuvia tietoja olisi mukana, siis ikään kuin aineisto olisi sen verran pienempi.

Varsinkin R:ää käytettäessä voi puuttuvat tiedot merkitä sarkainmerkillä tai pilkuilla erotettuihin tekstimuotoisiin aineistoihin koodata valmiiksi kahdella isolla kirjaimella NA, jolloin ne ilman eri mainintaa tulkitaan puuttuviksi tiedoiksi. Muukin arvo voidaan lukuvaiheessa tulkita puuttuvaksi tiedoksi antamalla parametrille na.strings sopiva arvo, esim. HKV-aineistossa na.strings="I". Jos esimerkiksi olemme tallentaneet taulukkolaskimella seuraavanlaisen tiedoston CSV-muodossa:

175,65,2
168,NA,1
177,71,2
171,79,1
181,82,2
NA,58,1
174,69,NA
niin sen voi lukea komennolla (jossa varmistetaan, etä ensimmäisellä rivillä ei ole muuttujien nimiä) ja tiivistelmäkomennolla havaita, että puuttuvat tiedot menivät oikein perille:
> M = read.csv("r-puuttuvat.csv", header=FALSE)
> summary(M)
       V1              V2              V3     
 Min.   :168.0   Min.   :58.00   Min.   :1.0  
 1st Qu.:171.8   1st Qu.:66.00   1st Qu.:1.0  
 Median :174.5   Median :70.00   Median :1.5  
 Mean   :174.3   Mean   :70.67   Mean   :1.5  
 3rd Qu.:176.5   3rd Qu.:77.00   3rd Qu.:2.0  
 Max.   :181.0   Max.   :82.00   Max.   :2.0  
 NA's   :  1.0   NA's   : 1.00   NA's   :1.0  

Vastaavasti, jos tiedostomme muoto olisi sellainen, jota Suomen oloihin sovitettu Excel tulostaa:

175;65;2
168;"NA";1
177;71;2
171;79;1
181;82;2
"NA";58;1
174;69;"NA"
olisimme saaneet vastaavat tulokset komennoilla:
175;65;2
168;"NA";1
177;71;2
171;79;1
181;82;2
"NA";58;1
174;69;"NA"

Yllä olevissa on jo laskettuna keskiarvot ja mediaanit ym. siten, että puuttuvat tiedot on otettu asianmukaisesti huomioon eli ne puuttuvat noista tunnusluvuista. Laskemalla taulukko kolmannesta muuttujasta nähdään, että NA -havainto ei ole siinä mukana:

> table(M$V3)
1 2 
3 3 
Vastaavasti, jos piirrämme muuttujien V1 ja V2 pisteet hajontadiagrammiin, sinne menevät vain sellaiset muuttujien arvojen parit, joissa kumpikaan arvo ei ole NA:
> plot(M$V1, M$V2)


-- KimmoKoskenniemi - 2011-10-20


  

  • r-puuttuvat-2.csv: Esimerkkitiedosto, jossa puuttuvia tietoja puolipistein erotettuna
Topic attachments
I Attachment Action Size Date Who Comment
Unknown file formatcsv r-puuttuvat-2.csv manage 0.1 K 2011-10-21 - 05:26 KimmoKoskenniemi Esimerkkitiedosto, jossa puuttuvia tietoja puolipistein erotettuna
Unknown file formatcsv r-puuttuvat.csv manage 0.1 K 2011-10-21 - 05:25 KimmoKoskenniemi Esimerkkitiedosto, jossa puuttuvia tietoja
Topic revision: r5 - 2011-11-04 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback