Tilastotieteen teoriaa

Tämän sivun tarkoituksen on koota yhteen keskeisiä käsitteitä ja sitä mistä ne syntyvät.

Populaation ja otoksen (eng. sample) ero

Johnson (2008) selittää eron: "Jos otamme kaikkien huoneessa olevien keskimääräisen pituuden, saamme koko populaation keskiarvon. Jos taas ajattelemme, että tämä huoneessa olevien ihmisryhmä on vain otos kaikista yliopistolla tai kaupungissa olevista, niin mittaamamme keskiarvosuure on nimeltään otoksen keskiarvo. Otoksen keskiarvo voi olla hyvä tai huono likiarvo laajemman populaation keskiarvolle."

Huomaa että

  • pitäisi mieluummin puhua populaation keskiarvosta eikä jakauman keskiarvosta, vaikka populaatiolla on toki jakauma ja sen ominaisuudet, joihin kuuluu mm. keskiarvo
  • myös joidenkin muiden suureiden kuin keskiarvon kohdalla erotetaan populaation ja otoksen vastaavat suureet. Niinpä käytetään merkitöjä:

Käytämme jatkossa merkitää \sum kun tarkoitamme \sum_{i=0}^n tai \sum_{i=0}^N.

xxx otoksen (engl. sample) xxx populaation xxx
koko n N
keskiarvo \bar{x}
\sum \bar{x}_i / n
\mu
\sum \bar{x}_i / N
varianssi s^2
\sum (x_i - \mu)^2 / (n - 1)
\sigma^2
\sum (x_i - \mu)^2 / N
keskihajonta (engl. standard deviation) s
\sqrt{\sigma^2}
\sqrt{\sum(x_i - \bar{x})^2 / (n-1)
\sigma
\sqrt{s^2}
\sqrt{\sum(x_i - \mu)^2 / N
keskiarvon keskivirhe (engl. standard error of mean, SE) SE
s_\bar{x}
s_x/\sqrt{n}
\sigma_x/\sqrt{n}
 

Hyvä otos

Johnson (2008) määrittelee hyvän otoksen ominaisuudet:
  1. riittävän iso (jotta vältetään outojen tapausten vaikutus) - "Hyväkään tilastollinen analyysi ei voi korjata kelvotonta otosta."
  2. satunnainen (jotta vältetään populaation jakauman vinoutuminen). - "Kielitieteelliset havainnot kätkevät monia niihin vaikuttavia muuttujia."

Kieltieteessä satunnaisuus on usein ongelma, koska

  1. tutkimus rajoittuu johonkin osapopulaatioon
  2. turkimus rajoituu jonkin erityisilmiön hakemiseen jollakin tavoin.

Otoskoon vaikutus satunnaismuuttujan keskiarvoon

Yksittäisen havinto muodostaa otoksen, jonka koko on 1. Otoksen sisäinen keskiarvo on havainto itse ja sen otoskeksihajonta on \sqrt{ \sum( x_i - x_i )^2 / 0=0. Kun otoksen havaintojen määrä kasvaa suuremmaksi, lähestyy ostoskeskiarvo ja otoskeskihajonta populaation keskiarvoa ja keskihajontaa.

Mutta jos otoksien keskiarvo merkitään uudeksi muuttujaksi \bar{x}, voidaan tarkastella otoksien keskiarvojen muodostamaa populaatiota. Tämän muuttujan, \bar{x}, keskiarvo, \bar{\bar{x}}= on sama kuin alkuperäisen muutujan keskiarvo, mutta muuttujan \bar{x} keskihajonta on sitä pienempi, mitä suurempi on yksittäisen otoksen koko. Koska tämä keskihajonta kuvaa otoksille saatavan keskiarvon virhettä, kutsutaan sitä nimellä keskivirhe. Keskivirheelle saadaan hyviä likiarvoja jo pelkän otoskeskihajonnan ja otoskoon avulla.

Tähän liittyy nk. keskeinen raja-arvolause (central limit theorem), jonka mukaan tasaisesti jakautuneesta populaatiosta otettujen näytteiden keskiarvot muodostavat normaalijakautuneen populaation. Keskeinen raja-arvolauseke on voimassa tietyin ehdoin myös populaatioille, jotka eivät ole tasaisesti jakautuneet.

Havainnon testaaminen, tiheysfunktio ja kertymäfunktio

Normaalijakaumassa havainto x voidaan normittaa z-arvoksi kaavalla z=(x_1 - \bar{x}) / s. Normitetut havainnot, z-arvot, muodostavat normaalijakauman, jonka keskiarvo on 0 ja keskihajonta 1. Tätä jakaumaa vasten voidaan laskea kuinka monta prosenttia havainnoista saa pienemmän tai suudemman normitetun arvon. Z-arvojen jakauma syntyy tiheysfunktion avulla ja z-arvoa pienempien arvojen määrä voidaan laskea kertymäfunktion avulla.

Populaation keskiarvon testaaminen

Vaikka otoksesta voidaan laskea otoksen keskiarvo, populaation keskiarvoa ei yleensä tunneta, vaan se estimoidaan otoksen keskiarvon avulla. Sen merkittävää eroa johonkin oletettuun keskiarvoon ei myöskään yleensä saada selville suoraan, koska populaation keskihajontaakaan ei tunneta. Vertailuun tarvitaan t-arvoa. T-arvo mittaa populaation keskiarvon estimaatin \bar{x} poikkeamaa oletetusta keskiarvosta \mu ja T-jakauman kertymäfunktio kertoo sen, kuinka usein t-arvo on saatua t-arvoa pienempi.
  • Jos t-arvo on alle 0, niin kertymäfunktion arvo sille kertoo kuinka todennäköistä on, että saadaan yhtä pieni tai pienmpi t-arvo populaatiolle, jonka keskiarvo on \mu.
  • Jos t-arvo on yli 0, niin 1 minus kertymäfunktion arvo sille kertoo kuinka todennäköistä on, että saadaan yhtä suuri tai suurempi t-arvo populaatiolle, jonka keskiarvo on \mu.

Hyvin samanlaista menetelmää käytetään myös kahden populaaton keskiarvojen eron testaamiseen niistä saatujen otosten perusteella.

-- AnssiYliJyra - 2012-11-28

Topic revision: r3 - 2012-11-30 - AnssiYliJyra
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback