Linguistics / Corpus Server (in English only)

The Corpus Server

Tekstikokoelmien sijainti corpus-koneella

Kielipankin XML-muotoiset tekstikokoelmat on sijoitettu corpus.csc.fi-koneelle hakemistoon:

/mnt/corpus/kielipankki/teksti

Tämän hakemiston alla tekstikokoelmat on jaettu päätasoihin kielten ja lokaalien mukaan tekstikokoelmiin (esim. suomenruotsin tapauksessa sv/FI/, jossa sv vastaa ruotsin kieltä ja FI että kyseessä on Suomessa käytetty variantti), joiden alta löytyy osakokoelmakohtaiset hakemistot (esim. karjalainen/). Osakokoelmien yksittäiset dokumentit ovat lisäksi sijoitettu alihakemistoihin julkaisuvuoden (esim. 1999/ ja julkaisukuukauden (esim. 06/) mukaan, jos se on ollut mahdollista.

Kielipankkiin on asennettu käytettäväksi myös muita korpuksia ja tekstiaineistoja, jotka eivät välttämättä ole XML-muotoisia. Ne löytyvät suoraan hakemiston /mnt/corpus/kielipankki alta. Aineistot ovat jaettu hakemistoihin aineistojen nimien mukaisesti tai ainestojen koostamisesta vastuussa olevien projektien nimien mukaisesti. (Esim. Susanne-korpus löytyy hakemistosta /mnt/corpus/kielipankki/susanne.)

Hur du hittar de XML-kodade textsamlingarna på corpus-servern

Språkbankens XML-kodade textsamlingar har lagrats i följande katalog på servern corpus.csc.fi:

/mnt/corpus/kielipankki/teksti

Denna katalog innehåller kataloger för språk (som sv för svenska och fi för finska) och område (som FI för Finland). De finlandssvenska texterna hittar du således under sv/FI/. Områdeskatalogerna innehåller sedan kataloger för delsamlingar (eller subkorpusar), t.ex. hufvudstadsbladet. De enskilda dokumenten i delsamlingarna har delats upp i kataloger enligt publiceringsår och publiceringsmånad om information av detta slag finns tillgänglig.

Språkbanken i Finland innehåller även ett antal korpusar som inte nödvändigtvis är i XML-format. De når du direkt i under katalogen /mnt/corpus/kielipankki. Katalogernas har namngetts enligt korpusarnas namn (t.ex. /mnt/corpus/kielipankki/parole-fi, eller enligt namnet på det projekt i vilket respektive korpus har samlats in (t.ex. /mnt/corpus/kielipankki/sktp.

Edit | Attach | Print version | History: r3 < r2 < r1 | Backlinks | Raw View | Raw edit | More topic actions...
Topic revision: r1 - 2006-10-13 - AnssiYliJyra
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback