Morph-it! on ilmainen ja vapaa (Creative Commonsin Attribution Share-Alike lisenssin alainen) italian kielen morfologinen leksikko. Koska se ei itsessään ole varsinainen käytettävissä oleva morfologinen jäsennin, se täytyy yhdistää johonkin toiseen järjestelmään, jotta sitä voi testata. Käytin tässä yhteydessä tällaisena järjestelmänä SFST:tä (http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/SFST.html), koska Morph-it!:n mukana tulee leksikko valmiiksi käännettynä SFST:n formaatille.

SFST taas on joukko työkaluja, joilla on mahdollista implementoida morfologisia jäsentimiä, nimenomaisesti käyttäen äärellisiä transduktoreita (kuten nimikin viittaa; SFST:n tarkoitus onkin monella tavalla olla vastaava työkalu kuin Xeroxin XFST).

Morph-it! on tämänhetkisessä muodossaan varsin yksinkertainen väline, eikä tarjoa kovin edistynyttä morfologista analyysiä sisältämilleenkään sanoille. Leksikon rivit ovat nimittäin muotoa:

fastidiosetto   fastidioso      ADJ:dim+m+s

eli ne sisältävät kyllä morfologista informaatiota, mutta informaatio ei ole linkitetty sananmuodon osiin millään tavalla. Toisaalta se sisältää yli puoli miljoonaa sananmuotoa. Suurempi ongelma käytön kannalta oli kuitenkin se, että jostain syystä mukana tullut SFST-transduktori ei antanut mitään tuloksia testatuilla sanoilla! Näin kävi, vaikka sille tarjosi sanoja, jotka selvästi olivat leksikossa olemassa (esim. italian perussanastoa kuten posso tai potere). Selvää syytä tähän ei näyttänyt olevan. SFST kuitenkin latasi leksikosta käännetyn transduktorin kiltisti, ja myös ilmoittaa kyseisen äärellisen automaatin sisältävän 39896 tilaa. Jokin ongelma kuitenkin esti tulosten saamisen esiin tällä erää.

SFST:stä voi taas mainita, että se ottaa syötettä vastaan joko interaktiivisesti tai tiedostosta (normaalisti tiedostosta, jolla on yksi sane per rivi).

Lisäksi SFST vaikuttaa varsin nopealta: täsmällistä nopeutta on vaikea ilmoittaa, johtuen teknisistä ongelmista Morph-it!:n kanssa, SFST:n mukana tulevat esimerkkitransduktorit ovat varsin pieniä, eikä niitä kannattane käyttää arvioitaessa järjestelmän toimivuutta tai kyvykkyyttä (tosin sen nekin todistivat, että ohjelma toimii sinänsä, eli Morph-it!:n kohdalla ongelma oli jossain muualla). Nopeuden toivoisi olevan hyvä senkin perusteella, että ohjelma on kirjoitettu C++:lla, vaikkei tämä sinänsä vielä mitään todistakaan. Joka tapauksessa ohjelma kirjoittaa kaikki Morph-it!:n transduktorin noin 40000 tilaa luettavassa formaatissa tiedostoon noin puolessa sekunnissa.

SFST:n tilantarpeesta on myöskin vaikea sanoa sen täsmällisempää arviota, mutta mainita kannattanee, että työkaluista löytyy yksi sellainenkin, joka tarpeen vaatiessa yhdistää useampia transduktoreita lennossa, jos niiden yhdistäminen yhdeksi etukäteen veisi liikaa muistia.

Morph-it! sisältää noin 35000 lemmaa ja puoli miljoonaa sananmuotoa, mutta en osaa arvioida millaisen kattavuuden tämä luo. Tekijät myöntävät itsekin, että suurin osa korpuksesta, mistä leksikko on rakennettu, koostuu sanomalehtiteksteistä, jotka eivät sisällä kaikenlaista kieltä, joten kattavuus ei sitä myöten varmaankaan ole täydellinen. Toisaalta virheellisiä sanoja se tuskin kauhean paljoa sisältää ja sitä mukaa hyväksyy. Analyysin tarkkuus ei ole erityisen suuri (sen lisäksi, että analysoituja rakenteita ei liitetä itse merkkijonoon), Morph-it! tunnistaa vain 43 erilaista tagia.

SFST:n toiminallisuudesta vielä sen verran, että se tukee normaalien säännöllisiin lausekkeisiin ja transduktoreihin kuuluvien operaattoreiden (kuten +, *, jne.) lisäksi kaksitasoformalismin sääntöjä (Koskenniemi 83) ja XFST:ssäkin olevia replace-operaattoreita (Karttunen 95), sekä myös joitain Yli-Jyrän (2005) määrittelemiä operaattoreita ([...] some of the restriction and coercion operators defined in [...]).

-- RoopeHavu - 07 Dec 2006

Topic revision: r1 - 2006-12-07 - RoopeHavu
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback