Ohjeet: Korp-palveluun vaadittavan aineiston formaatti

Uutta 15.1.2014: Korp-työkalussa eli "Korpissa" on viimein kirjautumisominaisuus, jonka ansioista Korpiin voidaan nyt viedä myös sellaisia aineistoja, joiden käyttöoikeus on rajattu HAKA-kirjautuneille tutkijoille (ACA) tai vain henkilökohtaisen käyttöoikeuden saaneille (RES).

Seuraavassa on joitain (alustavia) ohjeita, joita kannattaa mahdollisuuksien mukaan noudattaa, kun koodaat tai valmistelet aineistoa Korp-palveluun vietäväksi. Tämä nopeuttaa aineiston viemistä Korpiin. Myös muunlainen muoto on mahdollista muuntaa Korpin käyttämään muotoon, kunhan aineiston koodaus on tehty johdonmukaisesti. Tällöin aineiston olisi toivottavaa olla XML-muodossa (esim. TEI) tai muussa yhtenäisesti koodatussa tekstimuodossa. Kysy tarvittaessa lisätietoja FIN-CLARINin Korp-yhteyshenkilöltä, Jyrki Niemeltä (jyrki.niemi [AT] helsinki.fi).


Sivun sisältö

VRT-tiedostomuoto

Korpin pohjana oleva Corpus Workbench käyttää "verticalized text" eli VRT-muotoa, jossa yhdellä rivillä ovat sarkainmerkillä erotettuina sananmuoto (sane) ja sen mahdolliset annotaatioattribuutit (perusmuoto, sanaluokka, morfologinen analyysi jne.). Tekstin rakennetta esitetään XML-tyylisillä elementeillä ("rakenneattribuuteilla"), jotka ovat omilla riveillään. XML-elementit voivat sisältää attribuutteja. Lisätietoa formaatista saa Corpus Workbenchin dokumentaatiosta. Koska VRT-muoto muistuttaa XML-muotoa, jokin XML-muoto on hyvä lähtökohta Korpiin vietävälle aineistolle.

Merkistökoodaus

Korpia varten tiedostojen merkistökoodauksena on UTF-8.

Saneiden, saneiden attribuuttien ja rakenneattribuuttien arvojen sisältämät merkit & ja < tulee koodata XML-merkkiviittauksina &amp; ja &lt;. Myös muita XML:n vakiomerkkiviittauksia voi käyttää: " (ASCII-lainausmerkki) = &quot;, ' (ASCII-heittomerkki) = &apos; ja > = &gt;, mutta näiden käyttöön on tarvetta lähinnä silloin, jos lainausmerkkien ympäröimä rakenneattribuutin arvo sisältää samantyyppisen lainausmerkin. Sen sijaan ei pidä käyttää XML:n numeerisia merkkiviittauksia &#nnnn; ja &#xhhhh; eikä esim. HTML:n nimettyjä merkkiviittauksia (esim. &auml;), sillä Corpus Workbench tulkitsee ne kirjaimellisesti.

Saneiden attribuutit

Saneiden attribuuttien (sarakkeiden) merkityksinä voivat olla esimerkiksi (dependenssijäsennetyssä korpuksessa):

  • sananmuoto
  • sanan perusmuoto
  • sanan perusmuoto, johon on merkitty yhdyssanarajat
  • sanaluokka
  • morfologinen analyysi
  • sanan pääsanan järjestysnumero virkkeen sisällä
  • dependenssisuhde
  • sanamuodon itsensä järjestysnumero virkkeen sisällä

Sananmuotoa lukuun ottamatta attribuutit voivat olla muussakin järjestyksessä ja niitä voi olla enemmän tai vähemmän, kunhan yhdessä korpuksessa kaikilla sanoilla on samat attribuutit. Jos jotain attribuuttia ei ole korpuksessa, kyseinen sarake jätetään kokonaan pois.

Rakenteet ja niiden attribuutit

Korp tunnistaa ja käyttää kolmea tekstin rakennetasoa: teksti (XML-elementti text), kappale (paragraph) ja virke (sentence). Aineiston koodaamisessa kannattaa käyttää näitä rakenne-elementtien nimiä. Rakenteista ainoastaan sentence on pakollinen. KWIC-konkordanssinäkymässä Korp näyttää sanan esiintymäkontekstina sen sisältävän sentence-elementin sisällön, kontekstinäkymässä paragraph-elementin sisällön (jos aineisto sisältää paragraph-tason). Muutkin alkuperäisaineiston sisältämät rakenteet kannattaa mahdollisuuksien mukaan säilyttää, vaikka ne eivät näykään Korpissa muuten kuin mahdollisten attribuuttiensa kautta.

Rakenne-elementtien attribuutit voivat pääosin olla vapaamuotoisia. Tiettyä tekstiä koskevat kuvailutiedot kannattaa esittää text-elementin attribuutteina.

Jos alkuperäisen tekstin luontiajankohta on tiedossa, se merkitään text-elementin attribuutteihin datefrom ja dateto muodossa vvvvkkpp. Jos ajankohta on tiedossa päivän tarkkuudella, attribuuttien datefrom ja dateto arvo on sama; jos on tiedossa vain vuosi vvvv, merkitään datefrom="vvvv0101" ja dateto="vvvv1231". Erityisesti dependenssijäsennetyissä korpuksissa sentence-elementeillä pitäisi olla attribuutti id, jonka arvo on korpuksen sisällä yksikäsitteinen kokonaisluku.

Rakenne-elementtien ja niiden attribuuttien nimet saavat sisältää vain merkkejä az, 09, - (yhdysviiva) ja _ (alaviiva), eli erityisesti ei suuraakkosia. Nimet eivät myöskään saa alkaa numerolla. Lisäksi olisi suotavaa, että rakenne-elementtien nimet eivät sisältäisi alaviivoja.

Attribuutit ja niiden arvot Korpissa

Korpin käyttöliittymä tarvitsee tiedon käytetyistä attribuuteista. Aineiston yhteydessä olisikin hyvä toimittaa luettelo sekä saneiden annotaatioattribuuteista että erityisesti rakenne-elementtien attribuuteista ja niiden lyhyehköt selväkieliset nimitykset ainakin suomeksi, mielellään myös englanniksi ja ruotsiksi.

Jos jonkin attribuutin arvojoukko on kiinteä ja pienehkö (esim. sanaluokka), sille voi tehdä Korpin laajennettuun hakuun valintalistan, jossa arvoilla voi olla selväkielisemmät nimet (esim. N = substantiivi). Myös tällaisten attribuuttien arvojen nimityksistä olisi hyvä olla luettelo.

Rinnakkaiskorpukset

Rinnakkaiskorpukset koodataan kukin kieli erikseen. Kohdistus merkitään kohdistetun XML-elementin id-attribuuttina: keskenään kohdistetuilla osilla on sama id. Kohdistuselementti voi olla sentence tai paragraph, jos korpus on kohdistettu yksi yhteen virke- tai kappaletasolla, tai kohdistuselementti voi olla erillinen, esim. align.

Esimerkki

Seuraavassa on esimerkki korpuksen koodauksesta Korpin käyttämässä muodossa. Taulukon kukin sarake vastaa yhtä sananmuodon attribuuttia, jotka todellisessa tiedostossa on erotettu sarkainmerkeillä. Sananmuotojen attribuutit ovat samat ja samassa järjestyksessä kuin edellä olevassa listassa. Rakenne-elementteinä ovat text, chapter, speech, paragraph ja speech.

<text filename="EuroParl Corpus/fi-en/fi/ep-00-01-17.txt" title="" codetitle="" url="" datefrom="20000117" dateto="20000117">
<chapter id="1" title="Istuntokauden uudelleenavaaminen">
<paragraph id="1">
<sentence id="1" line="2">
Istuntokauden istuntokausi istunto#kausi N N Gen Sg 2 obj 1
uudelleenavaaminen uudelleenavaaminen uudelleen#avaaminen N N Nom Sg 0 main 2
</sentence>
</paragraph>
<speech speakerid="1" speakername="Puhemies" language="und">
<paragraph id="2">
<sentence id="2" line="4">
Julistan julistaa julistaa V V Prs Act Sg1 0 main 1
perjantaina perjantai perjantai N N Ess Sg 1 advl 2
joulukuun joulukuu joulu#kuu N N Gen Sg 5 attr 3
17. 17. 17. Num Num Digit 5 attr 4
päivänä päivä päivä N N Ess Sg 1 advl 5
keskeytetyn keskeyttää keskeyttää PrfPrc PrfPrc Pass Pos Gen Sg 9 attr 6
Euroopan Eurooppa Eurooppa N N Prop Gen Sg 8 attr 7
parlamentin parlamentti parlamentti N N Gen Sg 9 attr 8
istunnon istunto istunto N N Gen Sg 10 obj 9
avatuksi avata avata PrfPrc PrfPrc Pass Pos Tra Sg 1 advl 10
. . . Punct Punct - - 26
</sentence>
</paragraph>
</speech>
</chapter>
</text>



Korp-työkalun käyttöohjeet