Kieliteknologian eri osa-alueiden evaluointitapoja

Yleisiä käsitteitä: Saanti, tarkkuus, kattavuus ja relevanssi.

Morfologinen generointi ja analyysi:
Konekäännös: BLEU & METEOR
Puhesynteesi: MOS & HINT

Automaattiset testit vs. ihmistyötä vaativat
mielipidettä vaativat vs. absoluuttiset
Miten nämä jakautuvat kieliteknologian osa-alueiden kesken ja eri modaliteeteissa?

Mitkä seikat vaikuttavat testitulosten luotettavuuteen?
  • Kuinka paljon testauksessa on käytetty subjektiivista arviointia?
    • koehenkilöiden valinnassa on käytettävä harkintaa
  • Ovatko testitulokset yhtesmitallisia?
  • Käytetyt testimateriaalit.
    • Onko testimateriaalin valinta ollut objektiivinen?
  • Vaikka testi olisikin luotettava, niin onko testitulos relevantti aihepiirin ja evaluointiongelman kannalta?
    • Toisin sanoen, on mietittävä tarkasti, mitä testi testaa.
    • Miten valitaan ongelmaan sopiva testi?
    • eli miten perustellaan tämä valinta?

Miten mitataan ja ilmaistaan tilastollisesti tuloksien luotettavuutta?

Luotettavuusväli
http://en.wikipedia.org/wiki/Confidence_interval

Tehtävää
  • HyClt351Ekaviikko Ensimmäisen viikon materiaalin analysointi : Miikka ja Tommi
  • Konekäännöskilpailun tulosten kriittinen tarkastelu. Kuinka paljon tulokset oikeasti merkitsevät ja kertovat järjestelmien paremmuudesta? : Artturi
Kuten luennolla puhuttiinkin, konekäännöskilpailuun osallistui mm. IBM, joka sattuu olemaan myös kilpailn tulosten evaluointimenetelmän, BLEU-metriikan kehittäjä. Totesimme myös, että BLEU ja METEOR eivät anna aitoa arviota käännöksen luentevuudesta vaan perustuu tiettyjen samuuksien identifioimiseen ihmiskäännöksen ja konekäännöksen kesken. Järjestelmän yksinkertaisuutta on kenties mahdollista käyttää hyväkseen antamalla sille mitä se haluaa (mahdollisimman samoja sanoja mahdollisimman samassa järjestyksessä kuin vertailukäännös). En kuitenkaan väitä, että kilpaosapuolet olisivat erityisemmin tällaiseen syyllistyneet vaikkakin uskoisin että tiettyä "optimointia" onkin varmasti suoritettu.
Joka tapauksessa, tulosten voidaan ajatella olevan suuntaa-antavia. Ei voida vetää rajaa siihen, kuinka pieniä eroja BLEU tuloksissa kannattaa tuijottaa. Kuinka paljon parempi on BLEU 0,41 tuloksen saanut kääntäjä verrattuna 0,40 tuloksen saaneeseen nähden. Tätä eroa ei varmasti käytännössä huomaa. Kuitenkin, esimerkiksi kilpailun peränpitäjän KSCL Inc:n tulos 0,05 vastaan voittaja Googlen 0,42 osoittaa mielestäni Googlen kääntäjän selkeää paremmuutta.
Seuraava NIST-kilpailuakin koskettava tekstipätkä on kopioitu wikipediasta:

BLEU has frequently been reported as correlating well with human judgement,[7][8][9] and certainly remains a benchmark for any new evaluation metric to beat. There are however a number of criticisms that have been voiced. It has been noted that while in theory capable of evaluating any language, BLEU does not in the present form work on languages without word boundaries.

It has been argued that although BLEU certainly has significant advantages, there is no guarantee that an increase in BLEU score is an indicator of improved translation quality. As BLEU scores are taken at the corpus level, it is difficult to give a textual example. Nevertheless, they highlight two instances where BLEU seriously underperformed. These were the 2005 NIST evaluations where a number of different machine translation systems were tested, and their study of the SYSTRAN engine versus two engines using statistical machine translation (SMT) techniques.

In the 2005 NIST evaluation, they report that the scores generated by BLEU failed to correspond to the scores produced in the human evaluations. The system which was ranked highest by the human judges was only ranked 6th by BLEU. In their study, they compared SMT systems with SYSTRAN, a knowledge based system. The scores from BLEU for SYSTRAN were substantially worse than the scores given to SYSTRAN by the human judges. They note that the SMT systems were trained using BLEU minimum error rate training, and point out that this could be one of the reasons behind the difference. They conclude by recommending that BLEU be used in a more restricted manner, for comparing the results from two similar systems, and for tracking "broad, incremental changes to a single system".

Tiivistettynä: BLEU korreloi ihmisarvion kanssa. BLEU korreloi toisinaan huonosti ihmisarvion kanssa. BLEU:ssa on puutteita ja se on osittain kieliriippuvainen (ei toimi kaikille kielille yhtä hyvin tai ollenkaan). BLEU:ta pitää käyttää harkiten ja rajoitetusti ja/tai parantaa sitä/käyttää sitä tukevien metriikoiden kanssa.


  • Morfologisen jäsentimen tarkkuudet laskettiin uniikeista sanamuodoista...miten tämä olisi kannattanut tehdä? Tai kaikkea omorfiin liittyvää : Tommi
  • Puhesyntetisaattorit: vertailu, luotettavuus / MOS:ssa vain 6 osallistujaa : Tuomas
Tino Ojalan gradussa käsiteltiin suomen kielen puhesynteesijärjestelmien puheen laadun arviointia. Arviointiin käytettiin kahta erilaista menetelmää, MOS- ja HINT-testejä.
Puhesynteesin laadun arvioiminen on, luonnollisesti, lähinnä puheen laadun arvioimista, mikä tekee tehtävästä haastavan. Kuten Ojalakin gradussaan kirjoittaa, synteettisen puheen laadun arvioiminen on hyvin subjektiivinen tehtävä, jossa testaajan ja koehenkilön mielipiteet vaikuttavat paljon testituloksiin. Erityisesti tämä pätee MOS-testiin, jossa koehenkilölle annetaan kuultavaksi ensin kaksi vertailulausetta ja sen jälkeen hänen tulisi arvioida seuraavaksi kuulemansa lauseen laatua suhteessa näihin. Mitään puhtaasti objektiivista tulosta ei tällaisesta testistä oikein voi saada, vaan tulokset ovat aina enemmän tai vähemmän riippuvaisia valituista koehenkilöistä ja heidän mielipiteistään. Erityisesti tämä korostuu Ojalan gradussaan tekemässä MOS-testissä, johon osallistui vain kuusi koehenkilöä. Jos otos on näin pieni, ei tuloksia voi varsinkaan MOS:in kaltaisessa vahvasti subjektiiviseen arviointiin perustuvassa testissä pitää luotettavimpina mahdollisina. Siksi, gradun MOS-testin "epämuodollisuudesta" huolimatta, olisi ollut parempi käyttää hieman suurempaa koehenkilöjoukkoa.
Toinen Ojalan gradussa esitelty ja käytetty arviointimenetelmä on HINT-testi, joka mittaa koehenkilön kykyä kuulla syntetisaattorin lukemia lauseita kohinassa. Kyseisessä tutkimuksessa testiin osallistui 12 koehenkilöä, joilla jokaisella oli tarkoitus kuunteluttaa 16 listaa. Aikapulan vuoksi Ojala joutui kuitenkin tinkimään tästä tavoitteesta, ja tuloksissa jouduttiin ottamaan huomioon vain 164 listaa 192 ajatellusta. Tämän lisäksi tulosten luotettavuutta syö hieman se seikka, että eri syntetisaattorit lukivat omia sanalistojaan, jotka niihin oli liitetty. Jos jollekin syntetisaattorille oli osunut selvästi joko muita helpompi tai vaikeampi lista, tämä saattoi vaikuttaa tuloksiin vääristävästi. Listojen eroavaisuuksia selvitettiin tekemällä varianssianalyysi, joka osoitti, että yhden syntetisaattorin (tts3, Bitlips) käyttämät listat poikkesivat selvästi muista. Keskiarvojen eroja tutkimalla kuitenkin saatiin selville, että joka syntetisaattorilla on tästä huolimatta oma tilastollisesti eroava TRS-arvo. Kuten Ojalakin gradunsa johtopäätöksissä pohti, tulosten luotettavuuden parantamiseksi voisi vielä tehdä töitä huolehtimalla listojen tasalaatuisuudesta ja, mitä itse pidän ensiarvoisen tärkeänä, sekoittamalla listoja niin, että eri koehenkilöt saisivat samat listat eri koneiden lukemina. Myös taustakohina pitää valita oikein; 0-8 kHz taajuuksilla on vaarana, että jokin korkeataajuuksinen puheen komponentti voi päästä läpi häiriöittä. Myös HINT-testi olisi lisäksi voitu ehkä tehdä hieman useammalla koehenkilöllä.


Puheen ymmärrettävyyden kannalta olennaisimpia ovat kyllä taajuudet 500-2000Hz, joten en pitäisi vaarana tuota 0-8 kHz kohinan riittämättömyyttä. Kymppitonniin pääsee korkeintaan jotain s-äänteen suhinaa. Muuten kyllä olen samaa mieltä, että taustakohinan valinta on tärkeää. Anteeksi pilkunviilaaminen. smile --Artturi

  • Tilastollisten testien tarkastelu (mm. tehtävässä annetun luottamusvälin laskenta) : Jussi

Jos sovellus toimii oikein 50% tapauksista, ja luottamusväli on 99%, saadaan

n=(z*sqrt(p(1-p)^2)/d)^2 = (2.58*sqrt(0.5^3)/0.01)^2 = 8320

Entä jos on 100 näytettä, kuinka suuria heittoja ilmoitetussa keskiarvossa voidaan normaalisti odottaa?

Raja-arvolausekkeesta saadaan keskihajonta: s = sqrt(p(1-p)/n) = sqrt(0,5^2/100) = 0,05 joten 99 %:n luottamusväli on +-0,05*2,58 = 0,129 eli 50+-13

Yleensä käytetään 95 % luottamusväliä, jolla saataisiin 50+-10

Luottamusvälien lisäksi voidaan käyttää esim. t-testiä (jolla esim. puhesynteesin arviossa osoitettiin, että järjestelmien välillä on todellinen ero) tai varianssianalyysia (ANOVA), joilla voidaan osoittaa, että kahden järjestelmän arviointituloksissa on tilastollisesti merkittävä ero (s.o. osoitetaan, että ero ei ole silkkaa sattumaa).

--Jussi

Yleistä matskua
ftp://ftp.dcs.shef.ac.uk/home/robertg/papers/jcsl98.pdf
Topic revision: r8 - 2008-11-25 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback