Otsikko

http://www.hs.fi/fingerpori/1329104750599

Aiheidea

Valitsin aiheen C, koska minulla on kääntäjätaustaa.

Aineistoidea

Työpaikkani opetusviraston www-sivut ovat kolmikieliset.

Mitä minun tarvitsee oppia harjoitustyön tekemiseksi?

tilastotieteellisiä käsitteitä

  • muuttuja
  • havaintoaineisto
  • faktori
  • varianssianalyysi
  • hajonta
  • keskihajonta
  • ...

menetelmiä, joita minun pitää osata soveltaa

  • R
  • visualisointi - peruskauraa joka-aamuisen meditaation yhteydessä
  • taulukkolaskentaohjelma

Mitä olen oppinut R-ohjelmasta viikon aikana?

Aputiedostot ja navigoiminen

R:n saa opastamaan käyttäjäänsä mm. komennoilla help(), joka ottaa argumentiksi komennon nimen ilman parametrisulkeita, apropos() sekä help.search(), jotka ottavat argumenteikseen lainausmerkkeihin sisällytetyn merkkijonon. Merkkijono voi olla esim. osa komennosta.

Komentohistoriassa navigoidaan Emacsin näppäinyhdistelmillä. Esim. edelliseen komentoon pääsee käsiksi nuolinäppäimellä tai ctrl-p.

Sijoittaminen

R:n sijoitusoperaattori on <-

Siis:

 
> a <-1
> b <- 2
> a + b
[1] 3
Hakasulkeet vastauksessa kertovat rivin aloittavan alkion järjestysnumeron. Edellisessä laskutoimituksessa vastaus koostuu vain yhdestä rivistä.

Vektori ja matriisi

Vektori ja matriisi ovat R:n kokoelmia. Niihin voidaan lukea alkioita esim. CSV-tiedostosta tai ohjelmallisesti, esim. näin:
 
> y <- 1:5
> z <- 6:10
> å <- 11:15
y, z ja å ovat vektoreita.
> å
[1] 11 12 13 14 15
Vektoreista saa yhdistettyä matriisin esim. näin:
> ä <- rbind(y, z, å)
> ä
  [,1] [,2] [,3] [,4] [,5]
y    1    2    3    4    5
z    6    7    8    9   10
å   11   12   13   14   15

Harjoitustehtävä 1:

Kaksikielisessä korpuksessa mm. samaa tarkoittavat sanat ja saman proposition esittävät lauseet ovat kielissä eri pituiset.

Harjoitustehtävä 2:

Havaintomatriisini voisi olla sellainen, jossa sarakkeina olisi sanaluokkia ja riveinä lauseita. Matriisi kertoisi, kuinka monta substantiivia, adjektiivi tms. lauseissa on. Jos lauseet ovat esim.

1) Peruspalveluministeri Maria Guzenina-Richardsonin (sd) mukaan tämä hallitus ei toteuta omaishoidon tuen tai omaishoidon tukeen sisältyvän hoitopalkkion siirtämistä Kelan vastuulle.

2) Guzenina-Richardsonin mukaan siirto nostaisi valtion kustannuksia 130–163 miljoonaa euroa vuodessa.

3) ”Hallitus kuitenkin tunnistaa tarpeen lisätä yhdenmukaisuutta omaishoidon tuen myöntämisperusteissa”,

Tekstitiedostona matriisi voisi olla seuraavanlainen (erotinmerkkinä tabulaattori):

 sub adj pro num ver adv suh kon int
Perus... 13 0 1 0 2 0 1 1 0
Guzen... 6 0 0 3 1 0 1 0 0
Halli... 6 0 0 0 2 1 0 0 0

Se luetaan R:ään komennolla read.table("lauseenjäsenmatriisi.txt").

> read.table("lauseenjäsenmatriisi.txt")
         sub adj pro num ver adv suh kon int
Perus...  13   0   1   0   2   0   1   1   0
Guzen...   6   0   0   3   1   0   1   0   0
Halli...   6   0   0   0   2   1   0   0   0

Harjoitustehtävä 3: Havaintomatriisin tuominen Excelistä R:ään

Excelissä tehdään kuvan "havaintomatriisi_Excelista.png" mukainen matriisi ja tallennetaan se .csv-muotoon. Kuvan alalaidassa näkyy, miltä data näyttää JEditissä.

havaintomatriisi_Excelista.PNG

R:n komento setwd() kohdistaa R:n komentotulkin hakemaan tiedoston oikeasta alihakemistosta. Havaintomatriisi luetaan R:ään komennolla read.csv2("Excelistä_päivää.csv").

> read.csv2("Excelistä_päivää.csv")
  sarake.A sarake.B sarake.C sarake.D sarake.E sarake.F
1      0.1      1.1      2.1      3.1      4.1      5.1
2      1.1      2.1      3.1      4.1      5.1      6.1
3      2.1      3.1      4.1      5.1      6.1      7.1
4      3.1      4.1      5.1      6.1      7.1      8.1
5      4.1      5.1      6.1      7.1      8.1      9.1

Harjoitustehtävä 4: Tietyn rivin löytäminen havaintomatriisista

Tässä tehtävässä haluttiin löytää hkv-num.txt -tiedoston rivit, joissa muuttujan V63 arvo on nolla. Se onnistuu näin:
> H <- read.table("hkv-num.txt")
> attach(H)
> data.frame(V1[V63 == 0], V2[V63 == 0], V3[V63 == 0], V63[V63 == 0])
        V1.V63....0.     V2.V63....0.      V3.V63....0.     V63.V63....0.
1       80               1                 1                0
2       84               29                2                0
Esimerkissä rivistä valittiin vain kolme ensimmäistä muuttujaa sekä varmuudeksi nolla-arvon saanut muuttuja. Olisihan sitä voinut valita useammankin...

Satunnaisuudesta

Satunnaisuutta ei voi esiintyä hengenviljelyn alueella. Esim. matematiikka, logiikka ja ohjelmointikielet ovat ihmiset luomia suljettuja järjestelmiä, joiden sisällä ei voi esiintyä mitään satunnaista. Olisihan melko omituista sanoa: "Lisään kahteen kolme. Millaisenkohan summan tällä kertaa saan?"

Muissakaan vapaan deliberoinnin luomuksissa ei voi olla mitään satunnaista. Seuraavassa pätkä Yeatsin runoa, jossa hän nimenomaan pohtii tätä seikkaa:

We sat together at one summer's end,
That beautiful mild woman, your close friend,
And you and I, and talked of poetry.
I said, "A line will take us hours maybe;
Yet if it does not seem a moment's thought,
Our stitching and unstitching has been naught.

Menepä sanomaan Yeatsille, että hänen sanavalintansa olivat satunnaisia.

-- KimmoLassila - 2012-09-07

Topic attachments
I Attachment Action Size Date Who Comment
Unknown file formatPNG havaintomatriisi_Exceliss.PNG manage 6.6 K 2012-09-14 - 18:36 UnknownUser Havaintomatriisi Excelistä
Unknown file formatPNG havaintomatriisi_Excelista.PNG manage 19.2 K 2012-09-14 - 18:37 UnknownUser Havaintomatriisi Excelistä
Edit | Attach | Print version | History: r12 < r11 < r10 < r9 < r8 | Backlinks | Raw View | Raw edit | More topic actions...
Topic revision: r9 - 2012-09-28 - KimmoLassila
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback