CLT255, 4. luentokerta: Yksinkertaisia analyysejä
Esimerkki:
> whale = c(74, 122, 235, 111, 292, 111, 211, 133, 156, 79)
Muuttujaan
whale
asetetaan arvoksi vektori, jossa on kymmenen lukua.
> mean(whale)
[1] 152.4
Funktiolla
mean
lasketaan noiden kymmenen luvun keskiarvo.
> sd(whale)
[1] 71.50789
Funktiolla
sd
lasketaan kymmenen luvun sarjan keskihajonta.
Toinen esimerkki:
> beer = scan()
1: 3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
26:
Read 25 items
Muuttujaan
beer
annettiin 25 lukua tällä kertaa
scan
-funkitiolla, jotta ei tarvitsisi laittaa sulkuja ja pilkkuja, vaan pelkät luvut riittäisivät. Huomaa, että lopuksi on annettava tyhjä rivi, jotta
scan
tietää, milloin kaikki luvut on annettu. Yksittäisten lukujen ajatellaan tarkoittavan eri olutlajeja.
> beer
[1] 3 4 1 1 3 4 3 3 1 3 2 1 2 1 2 3 2 3 1 1 1 1 4 3 1
>
Katsottiin varmuuden vuoksi, mitä muuttujaan
beer
on mennyt. Sen arvona on nyt 25-alkioinen vektori, jossa on arvoja 1, 2, 3 ja 4.
> table(beer)
beer
1 2 3 4
10 4 8 3
Funktio
table
taulukoi, mitä arvoja ja paljonko muuttujassa
beer
on. Ykkösiä (eli ensimmäisen lajin oluita) oli kymmenen kappaletta, kakkosia neljä jne.
> table(beer)/length(beer)
beer
1 2 3 4
0.40 0.16 0.32 0.12
Jakamalla lukujen määrällä
length(beer)
saadaan absoluuttisten kappalemäärien sijasta eri olutlajien suhteelliset esiintymismäärät.
> barplot(table(beer))
Funktiolla
barplot
voimme visualisoida pylväsdiagrammina yllä olevan
table
-funktiolla lasketun eri arvojen jakautuman. Asteikkona on siis kappalemäärät.
> barplot(table(beer)/length(beer))
Suhteellisista esiintymismääristä vastaava pylväsdiagrammi.
> beer.counts = table(beer)
> pie(beer.counts)
> names(beer.counts) = c("domestic\n can","Domestic\n bottle",
+ "Microbrew","Import") # give names
> pie(beer.counts)
Asetettiin taulukoinnin tulos muuttujaan. Sen jälkeen piirrettiin sektoridiagrammi eli piirakkakuvio. Siinäkin oli piirakan viipaleissa numerot osoittamassa lajeja. Havainnollisuuden parantamiseksi lisätään arvoille nimet, siis olutlaji 1 on "domestic", laji 2 on "Domestic bottle" jne. Nyt piirakkakuviossa on numeroiden sijasta nämä arvojen nimet.
> pie(beer.counts,col=c("purple","green2","cyan","white"))
Jos tuo edellinen piirakka näytti hailakalta, nyt siihen on lisätty kirkkaampia värejä antamalla
col
-parametrille sellaisten värien nimiä. Muistamme, että tällaisia lisiä voi etsiä avustuksen kautta, siis
?pie
.
Esimerkki:
> x=scan()
1: 29.6 28.2 19.6 13.7 13.0 7.8 3.4 2.0 1.9 1.0 0.7 0.4 0.4 0.3
15: 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0.1 0.1
27:
Read 26 items
Luetaan muuttujaan
x
26 lukuarvon sarja.
> hist(x)
Visualisoidaan näiden lukuarvojen jakautumaa histogrammilla, jossa funktio
hist
saa oman logiikkansa mukaan valita arvovälit, joille lankeavat kappaleet laitetaan histogrammiin. Tässä käy niin, että arvot 0...5 muodostavat ensimmäisen välin ja siitä viiden välein ylöspäin tulevat seuraavat välit.
> hist(x,probability=TRUE)
Jos kappaleiden sijaan olisi haluttu suhteellisia osuuksia (eli todennäköisyyksiä), olisi pitänyt laittaa
probability
-parametrille arvo
TRUE
kuten yllä.
Esimerkki:
> x = c(18,23,25,35,65,54,34,56,72,19,23,42,18,39,37)
> y = c(202,186,187,180,156,169,174,172,153,199,193,174,198,183,178)
Asetettiin muuttujiin x ja y havaintoarvot.
> plot(x,y) # make a plot
Piirrettiin sirontakuvio, jossa havaintoarvot sijaitsevat.
> abline(lm(y ~ x)) # plot the regression line
Laskettiin regressiosuora eli kahden muuttujan välinen regressioanalyysi
lm
-funktiolla ja piirrettiin se lisänä edellisen askelen sirontakuvioon, jossa nyt on sekä pisteet että regressiosuora.
Lähteitä
http://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf
http://www.math.csi.cuny.edu/Statistics/R/simpleR/
--
KimmoKoskenniemi - 2010-10-21