CLT255, 4. luentokerta: Yksinkertaisia analyysejä

Esimerkki:

> whale = c(74, 122, 235, 111, 292, 111, 211, 133, 156, 79)
Muuttujaan whale asetetaan arvoksi vektori, jossa on kymmenen lukua.
> mean(whale)
[1] 152.4
Funktiolla mean lasketaan noiden kymmenen luvun keskiarvo.
> sd(whale)
[1] 71.50789
Funktiolla sd lasketaan kymmenen luvun sarjan keskihajonta.

Toinen esimerkki:

> beer = scan()
1: 3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
26: 
Read 25 items
Muuttujaan beer annettiin 25 lukua tällä kertaa scan -funkitiolla, jotta ei tarvitsisi laittaa sulkuja ja pilkkuja, vaan pelkät luvut riittäisivät. Huomaa, että lopuksi on annettava tyhjä rivi, jotta scan tietää, milloin kaikki luvut on annettu. Yksittäisten lukujen ajatellaan tarkoittavan eri olutlajeja.
> beer
 [1] 3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
>
Katsottiin varmuuden vuoksi, mitä muuttujaan beer on mennyt. Sen arvona on nyt 25-alkioinen vektori, jossa on arvoja 1, 2, 3 ja 4.
> table(beer)
beer
 1  2  3  4 
10  4  8  3 
Funktio table taulukoi, mitä arvoja ja paljonko muuttujassa beer on. Ykkösiä (eli ensimmäisen lajin oluita) oli kymmenen kappaletta, kakkosia neljä jne.
> table(beer)/length(beer)
beer
   1    2    3    4 
0.40 0.16 0.32 0.12
Jakamalla lukujen määrällä length(beer) saadaan absoluuttisten kappalemäärien sijasta eri olutlajien suhteelliset esiintymismäärät.
> barplot(table(beer))
Funktiolla barplot voimme visualisoida pylväsdiagrammina yllä olevan table -funktiolla lasketun eri arvojen jakautuman. Asteikkona on siis kappalemäärät.
> barplot(table(beer)/length(beer))
Suhteellisista esiintymismääristä vastaava pylväsdiagrammi.
> beer.counts = table(beer)
> pie(beer.counts)
> names(beer.counts) = c("domestic\n can","Domestic\n bottle",
+ "Microbrew","Import") # give names
> pie(beer.counts)
Asetettiin taulukoinnin tulos muuttujaan. Sen jälkeen piirrettiin sektoridiagrammi eli piirakkakuvio. Siinäkin oli piirakan viipaleissa numerot osoittamassa lajeja. Havainnollisuuden parantamiseksi lisätään arvoille nimet, siis olutlaji 1 on "domestic", laji 2 on "Domestic bottle" jne. Nyt piirakkakuviossa on numeroiden sijasta nämä arvojen nimet.
> pie(beer.counts,col=c("purple","green2","cyan","white"))
Jos tuo edellinen piirakka näytti hailakalta, nyt siihen on lisätty kirkkaampia värejä antamalla col -parametrille sellaisten värien nimiä. Muistamme, että tällaisia lisiä voi etsiä avustuksen kautta, siis ?pie.

Esimerkki:

> x=scan()
1: 29.6 28.2 19.6 13.7 13.0 7.8 3.4 2.0 1.9 1.0 0.7 0.4 0.4 0.3
15: 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0.1 0.1
27: 
Read 26 items
Luetaan muuttujaan x 26 lukuarvon sarja.
> hist(x)
Visualisoidaan näiden lukuarvojen jakautumaa histogrammilla, jossa funktio hist saa oman logiikkansa mukaan valita arvovälit, joille lankeavat kappaleet laitetaan histogrammiin. Tässä käy niin, että arvot 0...5 muodostavat ensimmäisen välin ja siitä viiden välein ylöspäin tulevat seuraavat välit.
> hist(x,probability=TRUE)
Jos kappaleiden sijaan olisi haluttu suhteellisia osuuksia (eli todennäköisyyksiä), olisi pitänyt laittaa probability -parametrille arvo TRUE kuten yllä.

Esimerkki:

> x = c(18,23,25,35,65,54,34,56,72,19,23,42,18,39,37)
> y = c(202,186,187,180,156,169,174,172,153,199,193,174,198,183,178)
Asetettiin muuttujiin x ja y havaintoarvot.
> plot(x,y) # make a plot
Piirrettiin sirontakuvio, jossa havaintoarvot sijaitsevat.
> abline(lm(y ~ x)) # plot the regression line
Laskettiin regressiosuora eli kahden muuttujan välinen regressioanalyysi lm -funktiolla ja piirrettiin se lisänä edellisen askelen sirontakuvioon, jossa nyt on sekä pisteet että regressiosuora.

Lähteitä

http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf

http://www.math.csi.cuny.edu/Statistics/R/simpleR/

-- KimmoKoskenniemi - 2010-10-21



Topic revision: r7 - 2010-12-02 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback