Saanti

Englanninkielinen nimitys: recall

Saanti ilmaisee kuinka monta prosenttia johonkin luokkaan kuuluvista käsitteistä on luokiteltu oikein. Saantia merkitään usein kirjaimella R .

Teoria

Katso saannin laskemiseen vaadittavat asiat sekä oletukset sivulta Luokittelumallin laadun mittaamisen kohdasta "Käytännön edellytykset ja oletukset".

Luokan saanti kertoo kuinka monta prosenttia luokaan kultakannan mukaan kuuluvista datapisteistä on luokiteltu kyseiseen luokkaan. Saanti lasketaan jokaiselle luokalel erikseen.

Laskentakaava ja arvot

Saannin laskukaava (merkinnät selitetty sivulla Luokittelumallin laadun mittaaminen):

recall.png

Laskukaavaa katsomalla voidaan todeta seuraavaa:

  • koska tp sekä fn ovat lukumääriä (eli arvot kokonaislukuja välillä [0, [ ) ei saanti voi olla negatiivista
  • Saannin ääriarvot:
    • Koska osoittajassa on tp ja nimittäjässä on tp + fntp, niin saanti voi olla korkeintaan 1 (kun fn on 0)
    • Kun tp on 0, on myös saanti 0
    • Saannin vaihteluväli on siis [0, 1]

Käytännön esimerkki

Tarkastellaan malariatestin evaluointia. Tässä tapauksessa meillä on kaksi luokkaa: S (sairaat) ja T (terveet). Luokitin on itse malariatesti. Kultakanta tarkoittaa sitä, että meillä on oikea tieto siitä, onko henkilöllä malaria vaiko ei. Kun testiä testataan, tällainen tieto pitää olla, mutta kun malariatestiä käytetään oikeasti sairaalassa, ei näitä "oikeita vastauksia" ole olemassa, vaan itse testiä halutaan käyttää selvittämään onko henkilöllä malaria vaiko ei.

S -luokan tarkkuus kertoo kuinka monta prosenttia malariaa sairastavista henkilöistä on malariatestin perusteella luokiteltu sairaaksi. Vastaavasti T -luokan tarkkuus kertoo kuinka monta prosenttia terveistä henkilöistä on luokiteltu terveiksi.

Arvoesimerkkejä ja niiden tulkintaa:

P=1 (100%)
kaikki sairaat henkilöt on luokiteltu sairaiksi, mikä on hyvä asia. Kaikki tulevat saamaan hoitoa, eikä kellekkään tauti jää piileväksi.

P=0 (0%)
Kaikki sairaat on luokiteltu terveiksi; ei näin!

P=0.7 (70%)
70% sairaista henkilöistä on luokiteltu sairaiksi. Ihan okei.

Huomio!

Saanti kertoo vain kuinka monta sairaaksi luokitelluista on oikeasti luokiteltu sairaiksi. Jos P=1, niin kaikki sairaat on luokiteltu sairaiksi (jee!), mutta lisäksi terveitä henkilöitä on voitu myös luokitella sairaiksi (wops...). Tämän vuoksi on tärkeää tarkastella myös terveiden saantia sekä laskea myös luokkien tarkkuus.

R esimerkki

Luokan 1 saannin laskeminen. Katso esimerkki sekaannusmatriisin luomisesta sivulta Luokittelumallin laadun mittaaminen.

> col = 1
> # true positive -arvot ovat aina matriisin diagonaalilla
> tp = print(cm[col,col])
[1] 2
> # luokkaan 1 luokitellut datapisteet
> p = rowSums(cm)[1]
> print(p)
1 
3 
> # tarkkuus luokalle 1
> R1 = tp/p
> print(R1)
        1 
0.6666667 

Samankaltaiset menetelmät

Käytetyt lähteet

Wikipedia: Precision (information retrieval)

Ensimmäinen kommentti

Toinen kommentti

-- SiniPessala - 2012-10-03

Topic attachments
I Attachment Action Size Date Who Comment
PNGpng recall.png manage 0.8 K 2012-10-10 - 16:56 UnknownUser  
Topic revision: r2 - 2012-10-10 - SiniPessala
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback