OMorFi: Joukahainen-sanaston, nykysuomen sanalistan ja käänteissanakirjan yhteensovittaminen

Lähtötilanne
Kolme eri lailla luokiteltua sanalistaa, tavoitteena saada jokaisen listan sanoille yhtenäinen luokitus ja formaatti.
Tavoite
Kaikille sanoille halutaan antaa sanaluokka sekä kotuksen taivutusluokka ja astevaihteluluokka. Lisäksi halutaan merkata plurale tantum -sanat ja sellaiset vierasperäiset sanat, joiden taivutuspäätteissä esiintyvä vokaali on jokin muu kuin vartalon kirjoitusasussa oleva.
Aineistot
Nykysuomen sanalista, Käänteissanakirja ja Joukahaisen sanasto. Tarkempi kuvaus aineistoista kandintyöni KitWiki-sivulla.
Menetelmät
Tarkempi kuvaus menetelmistä kandintyöni KitWiki-sivulla.
Katso myös
OmorfiLexiconMaintenancePlan

Lopputulos

Entryjä on yhteensä ~140 000 kolmesta lähteestä. Parisen tuhatta sanaa on yhteisiä Joukahaisen ja Käänteissanakirjan kanssa, eli yhteensä erillisiä entryjä on noin 138 000.

  • kotus.csv : 94 207
  • ksk.csv : 36 667
  • joukahainen.csv : 9503
  • yht : 140 377

Kaikki sanat ovat omalla rivillään muodossa "sana","tn","av","pos","ylimääräistä". Sana on sanan sanakirjamuoto, tn on luku väliltä 1-78, 99 tai 101. Taipuvilla sanoilla on neljännessä kentässä (pos) jokin seuraavista:

  • N, substantiivi
  • Prop, erisnimi; lisäksi viidennessä kentässä on jokin seuraavista tarkennuksista: etunimi (first), sukunimi (last), paikannimi (geo), muu (misc)
  • A, adjektiivi
  • V, verbi
  • Num, (säännöllisesti taipuva) numeraali

Taipumattomilla sanoilla on kaikilla taivutusluokkana 99, mutta neljäs kenttä sisältää jonkin seuraavista sanaluokista:

  • A, taipumaton adjektiivi (pikku, aimo)
  • Abbr, lyhenne
  • Adp, adpositio
  • Adv, adverbi
  • Cl, liitepartikkeli
  • Conj, konjunktio
  • Intj, interjektio
  • Num, epäsäännöllisesti taipuva numeraali
  • Pre, etuliite
  • V, vaillinaisesti taipuva verbi
  • P, taipumattomien sanojen kaatoluokka; sanat jotka eivät sovi edellisiin kategorioihin

Lisäksi pronomineille on taivutusluokka 101 ja sanaluokkatunnus Pron. Jokaisesta sanalistan pronominista on auki kirjoitetut muodot erillisessä listassa (http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/lexicons/OMorFi/src/pronominit.csv) muodossa "taivutusmuoto","tn","av","pos","perusmuoto SIJAMUOTO", eli esimerkiksi näin:

  • "tämän","101","0","Pron","tämä SG GEN"
  • "tätä","101","0","Pron","tämä SG PART"
  • "nämä","101","0","Pron","tämä PL NOM"
  • "näiden","101","0","Pron","tämä PL GEN"

Viides kenttä on valinnainen, ja se voi sisältää jotain seuraavista:

  • Erisnimille tarkennus, onko kyseessä etunimi (first), sukunimi (last), paikannimi (geo), muu (misc)
  • KSK:n taipumattomille sanoille tieto siitä, ottaako omistusliitteen aina (obl) tai usein (opt).
  • Aina monikollisilla sanoilla merkintä pt-pakollinen, usein monikollisilla sanoilla pt-usein (Yhteisille sanoille tieto otettu Käänteissanakirjasta, vain NSL:n sanoille kävin läpi käsin jokaisen t-loppuisen sanan)
  • Joillain luokkien 21 ja 22 sanoilla merkintä poikkeavasta taivutuspäätteiden vokaalista (pronunciation=[aeiouyäö]). Tätä ei ole kaikilla sanoilla, joiden taivutuspäätteiden vokaali poikkeaa vartalovokaalista.
  • Niille Nykysuomen sanalistan sanoille, joiden taivutusluokkaa muutin, on tieto alkuperäisestä taivutusluokasta (alkuperainen-tn={1-78, 99, 101}).

Jokaisella erisnimellä ja plurale tantum -sanalla on tarkentava kenttä, mutta tieto omistusliitteestä on vain niillä taipumattomilla sanoilla, jotka ovat peräisin Käänteissanakirjasta, ja poikkeava vokaali on vain muutamilla. Viidennessä kentässä saattaa olla useampiakin arvoja, esimerkiksi "isotaivot","1","0","N","pt-pakollinen, alkuperainen-tn=51".

Joukahainen

http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/lexicons/OMorFi/src/joukahainen.csv

Nykysuomen sanalista

http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/lexicons/OMorFi/src/kotus.csv

Käänteissanakirja

http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/lexicons/OMorFi/src/ksk.csv

Muut

http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/lexicons/OMorFi/src/99-viskista.csv

Isosta suomen kieliopista kerättyjä 99-luokan sanoja samassa muodossa kuin muutkin. Listassa on vain sellaisia sanoja, joita ei esiinny Nykysuomen sanalistassa, mutta päällekkäisyyksiä Käänteissanakirjan ja Joukahaisen kanssa voi olla.

http://www.ling.helsinki.fi/kieliteknologia/tutkimus/hfst/lexicons/OMorFi/src/pronominit.csv

Pronomineista auki kirjoitetut taivutusmuodot

http://www.helsinki.fi/~listenma/omorfi/kotus-yhdyssanat-oikeat.txt ja http://www.helsinki.fi/~listenma/omorfi/kotus-yhdyssanat-virheet.txt

Lisäksi kotuksen sanalistassa on ~600 sanaa luokissa 50 tai 51, panen ne myös arvaimeen ja tarkistan.

Jälkimmäisen listan sanat korjattuina: http://www.helsinki.fi/~listenma/omorfi/kotus-yhdyssanat-virheet-korjattu.txt

Kaikki kotuksen yhdyssanat muodossa "sana", "tn-av": http://www.helsinki.fi/~listenma/omorfi/kotus-yhdyssanat.csv

-->

Liitteitä

Alla luokkavastaavuudet, joiden perusteella tarkastus tehtiin.

KSK: substantiivit

KSK: adjektiivit

KSK: verbit

Joukahainen


-- InariListenmaa - 2008-11-08
Topic revision: r21 - 2009-06-02 - InariListenmaa
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback