Ensimmäisen viikon materiaalien analysointi

Tarkoituksena oli arvioida saanti- ja katavuuslukujen luotettavuutta Tommin jäsentimen testauksessa. Koska alkuperäiset materiaalit eivät olleet enää käytössä päädyttiin toistamaan testejä, joita ensimmäisen casen yhteydessä tehtiin.

Mitä tehtiin

Päätettiin analysoida Tommin jäsentimellä 23 Karjalaisen artikkelia Suomen kielen tekstipankista. Artikkelit valittiin vuosien 1994-2001 kulttuuriosioista. Tällä pyrittiin siihen, että analysoidut tekstit olisivat samankaltaisia, jotta tuloksista voisi ylipäätään sanoa jotain. Tietenkään evaluoinnista ei voi vetää yleisiä johtopäätöksiä, kun käytetty materiaali on niin erikoistunutta.

Jäsennetyistä teksteistä laskettiin saanti (moniko tunnetuista sanoista sai jonkin oikean tulkinnan) ja kattavuus (moniko sana sai tulkinnan). juoksevan tekstin saneista.

Lopuksi laskettiin luottamusväli käyttäen 95% todennäköisyyttä.

Materiaalin esitys

Materiaali Saanti (%) Kattavuus (%)
1 97.570 88.245
2 94.545 80.583
3 99.408 85.149
4 94.245 82.388
5 93.671 81.842
6 98.356 88.164
7 95.964 78.369
8 94.764 79.661
9 97.527 88.107
10 95.588 86.538
11 94.954 85.771
12 92.760 73.986
13 96.797 77.933
14 97.093 81.132
15 97.578 90.625
16 98.788 92.308
17 95.331 82.295
18 94.979 90.114
19 95.686 86.735
20 97.175 91.864
21 97.080 74.194
22 97.938 66.897
23 94.618 83.771

Saantien keskiarvo oli 96.19% ja keskihajonta oli 1.74%. Kattavuuksien keskiarvo 83.33% ja keskihajonta 6.32%.

Laskut

Oletetaan, että saanti- ja kattavuusluvut ovat normaalijakautuneet.

Saantiluvut ovat normaalijakautuneet keskiarvolla K=96.16% ja keskihajonnalla S=1.74%. Normaalijakaumasta voidaan nyt laskea raja z sille, että jokainen saantiluku löytyy löytyy alueelta (K-z,K+z) todennäköisyydellä 95% eli luottamusväli. Tämä saadaan kaavasta:

S*TINV(0.05,23-1)/SQRT(22)

missä TINV on käänteinen T-arvo.

Tulos olivat, että 95% todennäköisyydellä keskiarvo saanneille on välillä (96.16%-0.75%, 96.16%+0.75%) = (95.41%, 96.91%). Samoin saatiin, että 95% todennäköisyydellä kattavuuden keskiarvo on välillä (83.33%-2-73%, 83.33%+2.73%) = (80.6%, 86.08%). Nämä luottamusvälit vaikuttavat vähän kapeilta.

Oletusten oikeutus.

Oletettiin, että jäsennysten tarkkuudet ja kattavuudet ovat normaalijakautuneet. Voi ajatella, että toisistaan riippumatta sanoista saa tulkinnan tai ei saa tulkintaa tietty määrä. Siis tarkkuus on monien erillisten ilmiöiden yhteisvaikutuksen tulos, mikä tukee normaalijakauman olettamista. Tämä ei kuitenkaan pidä täysin paikkaansa, koska tekstin sanat eivät ole toisistaan riippumattomia. Ehkä kuitenkin voi tehdä sellaisen oletuksen, koska laskuista tulisi muuten erittäin monimutkaisia, jopa testaajien taidot ylittäviä.

-- MiikkaSilfverberg - 26 Feb 2008

Topic revision: r1 - 2008-02-26 - MiikkaSilfverberg
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback