Sanapankki

Sanapankki, FinnWordNet, on suomen kielen sanatietokanta, jota luodaan osana FIN-CLARIN-projektia.

Sanapankki jaottelee sanat (substantiivit, verbit, adjektiivit, adverbit) merkityksen perusteella synonyymiryhmiin, joille se esittelee yleisluontoisen käyttökontekstin. Synonyymiryhmät linkittyvät toisiinsa, ja niiden välillä on erilaisia semantiikkaan, johto-oppiin ja käsitehierarkiaan liittyviä suhteita. Sanapankkia voidaan hyödyntää kieliteknologisissa tutkimuksissa ja sovelluksissa. Se toimii myös sähköisenä asiasanastona.

Sanapankin ensimmäinen versio FinnWordNet 1.0 on luotu englanninkielisen English (Princeton) WordNetin (http://wordnet.princeton.edu/) pohjalle kääntämällä alkuperäinen WordNet (version 3.0) suomeksi. Ensimmäisessä versiossa vasta itse sanakorpus on olemassa suomeksi, ja kaikki selitystekstit ja esimerkit ovat englanniksi. Lisäksi aineiston käyttämä käsitteistö ja erisnimet ovat englantikeskeisiä. Suomenkieliset sanakäännökset esiintyvät vielä englanninkielisen WordNetin rakenteessa. Englannin kielen eri sanoille saattaa olla yksi ja sama suomenkielinen käännösvastine, tai toisaalta yhdelle englannin sanalle saatta käännöksenä olla useita suomen kielen sanoja. Aineistosta on poistettu joitakin tietoja pelkästään englannin kielessä toteutuvista johto-opillisista suhteista, mutta aineisto sisältää edelleen sellaisia, erityisesti sanastollisia suhteita kuvaavia tietoja, jotka eivät pidä paikkaansa suomen kielessä.

Tällä hetkellä hankkeessa tehdään muun muassa Sanapankin sanaluokkatarkistuksia ja oikolukua. Tavoitteena on lisätä suomenkielistä käsitteistöä ja täydentää puuttuvia sanoja korpuksista.

Kehittyvän Sanapankin ensimmäisen version käyttöliittymään voi tutustua osoitteessa http://www.ling.helsinki.fi/cgi-bin/fiwn/search. Kaikkien käyttöä kokeilleiden ja työversioon tutustuneiden antama palaute on arvokasta, ja se auttaa kehitystyötä eteenpäin. Palautelomake löytyy saman linkin takaa.

Hankkeessa työskentelevät Jyrki Niemi, Hissu Hyvärinen, Kristiina Muhonen ja Paula Pääkkö.

Topic revision: r4 - 2010-12-02 - ljalava
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback