Morfologisien jästentimien evalointi

Joitakin haja-ajatuksia morfologisen jäsentimen evaluoinnin toteuttamiseksi.

Data formaatti

Tarvitaan jonkinlainen yleinen formalismi ja standardoidut merkinnät erilaisille sanamuodoille. Esimerkiksi seuraavan tyylinen XML:llä

<sana>
   <sanamuoto>talolla</sanamuoto>
   <vartalo>talo</vartalo>
   <sija>adessiivi</sija>
   <persoona>n/a</persoona>
</sana>
<sana>
   <sanamuoto>talossani</sanamuoto>
   <vartalo>talo</vartalo>
   <sija>inessiivi</sija>
   <persoona>yksikön ensimmäinen</persoona>
</sana>

Onkohan tällaista jonkinlaista yleista standardia olemassa? Kun tällainen formaatti ollaan saatu aikaan, tarvitaan myös muunnostiedosto, jonka avulla tuloste saadaan jonkin tietyn jäsentimen ymmärtämään/tulkitsemaan/käyttämään formaattiin. Esimerkiksi lexc:n tapauksessa, edellä esitetty olisi seuraavanlaisessa formaatissa:

talolla : talo:+INE
talossani : talo:+ADE+SG1

Tai jotain tuohon suuntaan. Muilla jäsentimillä olisi vastaavasti omat formaattinsa esittää sama asia. Pointtina olisi siis koodata ohjelma jonka avulla muutetaan ylempänä oleva XML muotoinen data alempana olevaan muotoon (ja päinvastoin). Tämän voisi esimerkiksi suorittaa jonkinlaisen asetus tiedoston avulla, jolloin muuttaminen uuden jäsentimen formaattiin olisi helposti customoitavissa. Asetustiedosto voisi olla esimerkiksi seuraavanlainen:

inessiivi = +INE
adessiivi = +ADE
yksikön ensimmäinen = +SG1
monikon kolmas = +PL3

Vertailu Data

Vertailuun tarvitaan siis mahdollisimman suuri määrä valmiiksi oikein identifoitua dataa. Herää kysymys, että mistä tämä data saataisiin. Mahdollisesti data voidaan osittain generoida automaattisesti, esimerkiksi sanat haetaan jostakin suuremmasta dokumentista satunnaisina sanoina ja ajetaan tämä lista sitten jonkin jäsentimen kautta. Koska halutaan suorittaa vertailu oikeellisella datalla, joudutaan data kuitenkin manuaalisesti tarkistamaan. Automaattinen generointi saattaa kuitenkin nopeuttaa prosessia, yhdistettynä hyvään käyttöliittymään tarkistusta tehtäessä.

Toinen vaihtoehto on, että vertailudata saadaan joltain kolmannelta osapuolelta valmiina.

Vertailu prosessi

Kun lähtödata on saatu valmiiksi ja tarkistettua suoritetaan varsinainen vertailu. Vertailu suoritetaan siten, että ajetaan alkuperäiset sanamuodot jäsentimen lävitse, sekä muutetaan lähtödata asianomaisen jäsentimen kanssa samanlaiseen muotoon. Tämän jälkeen verrataan jäsentimen tulostetta ja lähtödatan muunnosta toisiinsa ja lasketaan tarpeelliset suureet. Anto ja Saanti?

Natural Language Processing kurssillla tuli esille jonkinlainen mittari annon ja saannnin (tai mitkä niiden kahden arvon nimet nyt olivatkaan) evaluointiin. En nyt just muista kaavaa, lisään kun saan sen kaivettua.



-- PetriUusitalo - 13 Sep 2006

Topic revision: r2 - 2008-11-25 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback