Yhteystiedot

FIN-CLARIN
Digitaalisten ihmistieteiden osasto
PL 24 (Unioninkatu 40)
00014 Helsingin yliopisto

fin-clarin ( ATT ) helsinki.fi


Kielipankissa on käytössä
138 aineistoa
13 työkalua

Tulossa 91 kielivaraa

Kerro meille omasta kieliaineistostasi!




FIN-CLARIN    CSC - Tieteen tietotekniikan keskus
Kansainvälinen CLARIN-projekti



FIN-CLARINiin liittyvät tutkimushankkeet

FIN-CLARIN-osahankkeiden ihmiset Pihlajasaaressa 17.5.2013 FIN-CLARINin kanssa toimii yhteistyössä useita tutkimusprojekteja Helsingin yliopiston nykykielten laitoksella:


Kielipankki-ryhmä

Kielipankki-ryhmän tavoitteena on tuoda aineistot, työkalut ja palvelut helposti kaikkien tarvitsijoiden ulottuville yhteistyössä koko Euroopan laajuisen CLARIN-yhteisön kanssa. Ryhmä tarjoaa tukea ja ohjeita käyttäjille, jotka haluavat julkaista omia kielivarojaan Kielipankin kautta. FIN-CLARIN-hankkeen Kielipankki-ryhmä toimii yhdessä CSC -Tieteen tietotekniikan keskuksen Kielipankki-tiimin kanssa, joka vastaa palveluiden teknisestä ylläpidosta.

Vuosina 2011-2013 on otettu käyttöön Korp- ja LAT-alustat ja käytännön toimintatavat tekstiä ja/tai multimediaa sisältävien tutkimusaineistojen julkaisemiseen ja jakeluun. Korp-palveluun on viety useita laajoja tekstiaineistoja, yhteensä lähes 78 miljoonaa sanetta. LAT-palveluun on viety annotoituja puheaineistoja, kehitetty teknistä julkaisuprosessia sekä koulutettu tutkijoita omien aineistojensa julkaisuun. Lisäksi tutkijoille tulee mahdollisuus ladata tiettyjä aineistoja omalle koneelleen Funetin FileSender-palvelun kautta.

Sekä LAT- että Korp-palveluun kirjautumista kehitetään ja yhtenäistetään edelleen. Myös CSC:n Tutkijan käyttöliittymästä löytyvää Kielipankin oikeudet -palvelua jatkokehitetään ja sen kautta pystyy jatkossa hakemaan kaikkien Kielipankin kielivarojen käyttöoikeuksia. Hippu-palvelinympäristöön on tehty konkreettisia parannuksia. Esimerkiksi kaikkien Kielipankin käyttäjien oletusmerkistö Hipulla on nyt UTF-8.

META-SHARE-hakemistopalvelu on saatu käyttöön ja sinne on viety yli 150 suomalaisen kielivaran kuvailutiedot, joiden oikeellisuus ja lisensointi on tarkistettu aineistojen omistajilta. Kieliaineistojen erilaisten käyttöoikeustasojen tueksi on luotu tallennussopimuspohjat sekä loppukäyttäjien lisenssitekstit.

Kielipankki-ryhmä on esitellyt Kielipankkia ja FIN-CLARINin toimintaa säännöllisesti eri yliopistoissa ja kielentutkijoiden seminaareissa. Ryhmä tekee yhteistyötä muiden kieliaineistoja tarjoavien ja kehittävien organisaatioiden ja hankkeiden, esim. Kotuksen, Tampereen yliopiston Yhteiskuntatieteellisen tietoarkiston, Tieteen kansallisen termipankin ja Tutkimuksen tietoaineistot (TTA) -hankkeen kanssa.

Puupankki - FinnTreeBank

Puupankki-hankkeen tavoitteena on ollut tuottaa vapaasti levitettäviä aineistoja, jotka on morfosyntaktisesti jäsennetty tutkijoita ja muita käyttäjiä varten. Aineisto (FinnTreeBank 3) on Korp-palvelussa saatavilla ja siitä voidaan tehdä hakuja mm. sanojen syntaktisten suhteiden perusteella.

Sanapankki - FinnWordNet

FinnWordNet on Princetonin WordNetin pohjalta kehitetty suomen kielen sanapankki, jossa sanat on ryhmitelty merkityksensä mukaan. FinnWordNet on julkaistu avoimella lisenssillä ja se on siis vapaasti käytettävissä. FinnWordNetistä on olemassa myös verkkopohjaisia demoja.

HFST - _Helsinki Finite-State Transducer Technology_

HFST:n avulla voidaan luoda ja hyödyntää ns. äärellistilaisia transduktoreita. Tutkijoiden saatavilla ei aikaisemmin ole ollut vastaavaa yleistä ohjelmistoa näihin tarkoituksiin. HFST:n avulla on jo luotu mm. morfologisia jäsentimiä, jotka ovat tutkijoiden vapaassa käytössä Kielipankin Hippu-palvelimella.

Tavoitteena on parantaa ohjelmiston dokumentaatiota, kehittää helppotajuisia tutoriaaleja sekä tarjota tutkijoille mahdollisuus jakaa muille omia käyttöesimerkkejään.

NER - Named Entity Recognizer, nimentunnistin

Nimentunnistimen avulla voidaan löytää tekstistä henkilöiden, paikkojen, organisaatioiden, ajankohtien ja muiden määrättyjen kohteiden esiintymiä. Tunnistimen pohjana käytettiin ruotsin kielen nimentunnistinta, joka on muunnettu säännöiksi hankkeessa tuotettuun työkaluun. Suomen kielen kohdalla nimentunnistimen tekeminen on sanojen morfologian vuoksi paljon haastavampaa kuin esim. englannin, jossa sanat eivät juuri taivu. Suomen kielen menestyksellinen käsittely edellyttääkin myös varsinaista kieliteknologiaa ja jäsentimien käyttöä, kun taas englannin nimentunnistuksessa voidaan paljolti hyödyntää pelkkiä listoja tunnetuista nimistä.

Hanke liittyy HS Software Newsroom -projektiin, jonka tavoitteena on kiinnostavien kohteiden tunnistaminen esimerkiksi lehtitekstistä tai muusta uutissyötteestä.

Suomalaisugrilaiset kielet ja internet

Koneen Säätiön rahoittaman hankkeen tavoitteena on koota Internetistä ns. pienten suomalais-ugrilaisten kielten (eli muiden kuin suomen, viron ja unkarin) tekstit alkuperäisine linkkeineen tutkimusta varten. Esimerkiksi Google Translate ei tällä hetkellä kykene lainkaan tunnistamaan tällaisten käyttäjämäärältään pienten kielten tekstinäytteitä. Hankkeessa kehitetäänkin kielentunnistinta, joka tunnistaa tällä hetkellä 285 kieltä. Varsinaisia suomalais-ugrilaisia kohdekieliä on näistä parikymmentä. Lisäksi tuotetaan tilastotietoa kunkin kielen käytöstä, sen kehityksestä sekä aineiston kattavuudesta.



-- MiettaLennes - 2013-05-20


Mail Kommentit



Kommentin jättäminen vaatii rekisteröitymisen ja kirjautumisen.