OMorFiRoadmap: Osatehtäviä, joista hanke voisi koostua

1. Kotuksen sanalistan täydentäminen ja korjailu

1.a Satunnaiset virheet
Tarkastaa Kotuksen sanalistaa siinä olevien satunnaisten virheiden paikallistamiseksi ja korjaamiseksi. (Yksi proseminaarityö HY:ssä meneillään keväällä 2007.)
1.b Epätavallinen perusmuoto
Sanalistassa ei monikollisuudesta ole merkintää, mutta yleensä tai aina monikolliset sanat on annettu monikkomuotoisena, <st><s>sakset</s><tn>7</tn></t></st>. Myös joillakin verbeillä on annettu muu kuin ensimmäinen infinitiivi, esim. erkanee eikä erata.
1.c Partikkelien jaottelu
Koodilla 99 on merkitty kaikki partikkelit, mukaan lukien konjunktiot ja interjektiot (joihin ei voi liittää edes liitepartikkelia), sekä adverbit (joista toisiin voi liittää sekä possessiivisuffiksin että liitepartikkelin, esim. kotona ja toisiin vain liitepartikkelin, esim. tänään). Olisi päätettävä esitysmuoto ja ratkaistava, mitä lajia kukin partikkeli on. Korpuksia voinee käyttää hyväksi.
1.d Pronominit
Koodi 101 identifioi pronominit, mutta ei niiden lajia eikä taivutusta. Jossakin vaiheessa nämä tiedot on lisättävä jonnekin.
1.e Yhdyssanat
Yhdyssanoille ei ole annettu taivutusluokkaa (joka olisi sama kuin sen jälkiosan taivutusluokka), eikä yhdyssanan osien välissä olevaa sananrajaa ole merkitty. Nämä tiedot lienee suoraviivaista päätellä sanalistasta itsestään, josta löytynee sekä suffiksina oleva osa että yleensä myös alkuosa (jonka nominatiivi- tai genetiivimuoto on prefiksinä). OMorFiYhdyssanat
1.f Adjektiivi vs. substantiivi
Nominien taivutuskoodista ei käy ilmi, onko kyseessä substantiivi vaiko adjektiivi.

Sanalista on saatavissa Kotuksesta XML-muotoisena. Ajatus on, että parannetuissa versioissa ei hävitettäisi mitään Kotuksesta tulleessa versiossa ollutta tietoa, vaan täydennettäisiin. Alkuversiossa on vain minimaalisesti attribuutteja, joten olisi luontevaa lisätä uusia tietoja lähinnä attribuutteina, ellei siitä tule ongelmia.

2. Mallisanojen taivutuksen kuvaaminen

2.a Mallisanat SFST:lle
Perussanakirjan ja Kielitoimiston sanakirjan mukaisia taivutusluokkia edustavien mallisanojen taivutuksen laatiminen SFST:lle, (Yksi proseminaarityö HY:ssä tehty keväällä 2007.)
2.b Mallisanat PC-KIMMOlle
Perussanakirjan ja Kielitoimiston sanakirjan mukaisia taivutusluokkia edustavien mallisanojen taivutuksen (jatkoluokat ja TWOL-säännöt) laatiminen PC-KIMMO -ohjelmaa varten.

3. Sanalistan konversio jäsentimeksi

3.a SFST-jäsennin
Eriasteisesti korjailtu sanalista muunnetaan mekaaniseksi SFST-ohjelman mukaiseksi lausekkeeksi, joka käännetään transduktoriksi.
4 3.b PC-KIMMO -jäsennin
Eriasteisesti korjailtu sanalista muunnetaan mekaaniseksi PC-KIMMO -ohjelman mukaiseksi leksikoksi.

4. Avoleksikko

4.a. Avoleksikko SFST:llä
Mallisanojen taivutuksen perusteella voidaan tehdä säännöllisistä lausekkeista koostuva leksikko, joka sallii mielivaltaisia (fonotaktisesti) mahdollisia hakusanoja ja tunnistaa näiden kaikki taivutusmuodot. (Avoleksikko yligeneroi tunnistaessaan.)


-- KimmoKoskenniemi - 15 Jun 2007
Topic revision: r4 - 2007-11-06 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback