Linguistics / Speech Corpora (only in English)

Speech Corpora

Kielipankin puheaineisto

Kielipankki ylläpitää suomen kielen puheaineistoa. Aineisto koostuu ääni- ja elokuvatallenteista digitaalisissa formaateissa sekä tallenteisiin liitetystä annotaatiosta.

Puheaineiston tallenteet on järjestetty osakorpuksiin. Annotaatiot on tallennettu annotaatiovarastoon (en. annotation repository). Puheaineiston käyttäjät voivat itse julkaista omaa annotaatiotaan annotaatiovarastoon muiden käyttäjien käytettäväksi.

Puheaineiston jokaisella tallenteella on oma dokumentaatiosivunsa verkossa, jonka kautta rekisteröityneet käyttäjät voivat hakea tallenteista kopiot omille koneilleen sekä nähdä mitä annotaatiota kyseiselle tallenteelle on julkaistu. Voit hakea puheaineiston tallenteiden verkkodokumentaatiota paikallistamispalvelulla tai siirtyä suoraan tallenteiden hakemistopolkuun.

Tallenteiden käsittelyyn (esim. annotataation lisäämiseen) on kehitetty Puh-editori, Windows- ja Linux-ympäristöissä toimiva itsenäinen sovellus graafisella käyttöliittymällä. Tallenteita voi tietenkin käsitellä myös muilla ohjelmilla, esim. Praat:illa (uusi ikkuna).

Tallenteet on järjestetty seuraaviin puhekorpuksiin:

* Suomalainen radio- ja TV-korpus 1 (= Finnish Broadcast Corpus 1, FBC-1) * Suomalainen radio- ja TV-korpus 2 (= Finnish Broadcast Corpus 2, FBC-2)

Puheaineiston sijainti corpus.csc.fi-koneella

Tallenteet

Kielipankin puheaineistoon kuuluvat tallenteet on sijoitettu corpus.csc.fi -koneelle seuraavasti:

Ensisijaisesti tallenteet ovat sijoitettu koneelle sen projektin nimen mukaan, jossa tallenteet ovat kerätty, esim. /mnt/corpus/kielipankki/fbc-1. Tallenteet löytyvät Puh-editorin ymmärtämässä muodossa sekä alkuperäisessä muodossa (esim. WAV).

Tallenteet on myös linkitetty /mnt/corpus/kielipankki/puhe -hakemiston alle. Tähän hakemistoon tallenteet on järjestetty kielen, maan ja julkaisijan ja ajankohdan mukaan, esim. /mnt/corpus/kielipankki/puhe/fi/FI/YLE/2003.

Huomaa, että tallenteet on myös löydettävissä ja haettavissa omalle koneelle Kielipankin puheaineiston paikallistamispalvelun avulla.

Annotaatiot

Puhetallenteisiin liitetty sekundaaridata, eli annotaatio, löytyy Kielipankin käyttämässä RDF-muodossa corpus.csc.fi-koneen annotaatiovarastosta, eli hakemistosta /fs/kielipankki/tiers/. Annotaatiotiedostojen hakeminen käsin korpuspalvelimelta on tosin tuskin milloinkaan tarpeen, sillä puheen annotaatiota varten kehitetty Puh-editori osaa itse hakea verkosta sellaiset annotaatiot, jotka koskevat editorissa annotoitavana olevaa tallennetta (valikkokomento Tools > Annotation Tier > Import Published Tier...). Annotaatioiden hakemiseen vaaditaan Kielipankin puheaineistojen käyttölupa, jota voi anoa tällä lomakkeella.

Annotaatiotiedostot voidaan myös hakea verkkoselaimella joko Kielipankin RDF-muodossa tai Praat-ohjelman ymmärtämässä TextGrid-muodossa. Linkit tiettyyn tallenteeseen liitetyn annotaation tiedostoihin löytyvät kyseisen tallenteen verkkodokumentaatiosivulta. Tallenteet löydät helpoiten paikallistamispalvelulla.

WWW-apuri Praatilla tehdyn annotaation julkaisemiseksi Kielipankin annotaatiovarastoon (uusi ikkuna). Vain rekisteröityneet käyttäjät! (Käyttölupahakemus)

-- AnssiYliJyra - 13 Oct 2006

Topic revision: r2 - 2006-10-13 - AnssiYliJyra
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback