Avoimen lähdekoodin morfologinen jäsennin suomen kielelle: kaavailuja, osasia ja osapuolia

Olemassa olevia osasia

  • SFST -
  • MALAGA
  • Hannu Väisäsen MALAGA-formalismin mukainen sanalista
  • Kotuksen luettelo Kielitoimiston sanakirjan hakusanoista ja niiden taivutusluokista, jonka saattamisesta yleisemmin käytettäväksi tietävät eniten Kotuksen Toni Nykänen ja Ritva Paananen, joide s-postiosoite on muotoa etunimi.sukunimi@kotus.fi (pisteettömillä ääkkösillä).
  • HunSpell

Tavoitteita

  • OpenOffice -ohjelmaan avoin suomen kielen oikeinkirjoituksen tarkistusohjelma. Tällaisen ohjelman pitäisi tunnistaa sananmuotoja ja ilmaista, mitkä niistä ovat (todennäköisesti) oikein kirjoitettuja ja mitkä väärin kirjoitettuja.
  • Täysimittainen ja kaksisuuntainen morfologinen analysaattori eli -jäsennin, joka tunnistaa sananmuodolle perusmuodon sekä taivutusta koskevat piirteet, mutta myös osaa tällaisesta perusmuodosta ja piirteistä tuottaa taivutusmuodon.
  • Voisi myös jaoitella siten, että toisaalta halutaan aika pian jotakin, joka toimii auttavasti ja toisaalta vähän pitemmän ajan kuluessa jotakin, jota voi kehittää kohti parempaa täydellisyyttä (ilman että pitää kokonaan aloittaa alusta).

Suunnitelmia

MALAGA-ohjelmaan perustuva suunnitelma

...

Kommentteja, lisää vapaasti:

 
  • Tietysti ... alitajunnastani pulpahti toisen henkilön nimi. -- KimmoKoskenniemi - 05 Jun 2006 - 10:43
  • Oletan, että yllä mainittu MALAGA-kehittäjä Väisänen on Hannu, ei Mikko. -- EliasAarnio - 02 Jun 2006 - 11:06

Nykyisen osaamisen mukainen suunnitelma korkealaatuiseksi ja ylläpidettäväksi jäsentimeksi

Äärellisiin transduktoreihin perustuvalla ratkaisulla saavutetaan kaksisuuntaisuus ilman eri toimenpiteitä, siis morfologiseen analyysiin pystyvä transduktorileksikko käy sellaisenaan myös taivutettujen sananmuotojen tuottamiseen. Jo pelkästään tästä syystä tällaine ratkaisu on toivottava.

Äärellisten transduktorien käsittelyä esim. morfologista analyysiä varten on olemassa useita ohjelmia ks. Wikipedia (http://en.wikipedia.org/wiki/Finite_state_machine), josta jotkut kuten Xeroxin XFST (ks. http://www.xrce.xerox.com/competencies/content-analysis/fst/) ja ATT:n FSM Library (ks. http://public.research.att.com/~fsmtools/fsm/) ovat kaupallisia, mutta rajattuun akateemiseen käyttöön saatavilla. On myös avoimeen lähdekoodiin perustuvia täysin vapaita transduktoreita käsitteleviä ohjelmia, mm. SFST (ks. http://www.ims.uni-stuttgart.de/projekte/gramotron/SOFTWARE/SFST.html), joiden etuna on se että niillä tehtyjä transduktorileksikoita voidaan hyödyntää kaikkiin tarkoituksiin ilman rajoituksia.

Kommentteja, lisää vapaasti:

 

-- KimmoKoskenniemi - 12 May 2006

Topic revision: r11 - 2008-11-21 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback