Difference: SuomenKielipankki:Dev:Linguistics_CorpusServer (1 vs. 2)

Revision 22006-10-20 - AnssiYliJyra

Line: 1 to 1
 
META TOPICPARENT name="SuomenKielipankki:Dev:WWW"
Linguistics / Corpus Server (in English only)

The Corpus Server

Changed:
<
<

Tekstikokoelmien sijainti corpus-koneella

>
>

Introduction

corpus.csc.fi, the corpus server of the Language Bank of Finland is a UNIX machine that is equipped for linguistic reseach purposes.
 
Changed:
<
<
Kielipankin XML-muotoiset tekstikokoelmat on sijoitettu corpus.csc.fi-koneelle hakemistoon:
>
>

Connecting to the Corpus Server

The corpus server is accessed using Secure Shell (ssh) tools. See connecting instructions for detailed information.
 
Changed:
<
<
/mnt/corpus/kielipankki/teksti

Tämän hakemiston alla tekstikokoelmat on jaettu päätasoihin kielten ja lokaalien mukaan tekstikokoelmiin (esim. suomenruotsin tapauksessa sv/FI/, jossa sv vastaa ruotsin kieltä ja FI että kyseessä on Suomessa käytetty variantti), joiden alta löytyy osakokoelmakohtaiset hakemistot (esim. karjalainen/). Osakokoelmien yksittäiset dokumentit ovat lisäksi sijoitettu alihakemistoihin julkaisuvuoden (esim. 1999/ ja julkaisukuukauden (esim. 06/) mukaan, jos se on ollut mahdollista.

Kielipankkiin on asennettu käytettäväksi myös muita korpuksia ja tekstiaineistoja, jotka eivät välttämättä ole XML-muotoisia. Ne löytyvät suoraan hakemiston /mnt/corpus/kielipankki alta. Aineistot ovat jaettu hakemistoihin aineistojen nimien mukaisesti tai ainestojen koostamisesta vastuussa olevien projektien nimien mukaisesti. (Esim. Susanne-korpus löytyy hakemistosta /mnt/corpus/kielipankki/susanne.)

Hur du hittar de XML-kodade textsamlingarna på corpus-servern

Språkbankens XML-kodade textsamlingar har lagrats i följande katalog på servern corpus.csc.fi:

/mnt/corpus/kielipankki/teksti

Denna katalog innehåller kataloger för språk (som sv för svenska och fi för finska) och område (som FI för Finland). De finlandssvenska texterna hittar du således under sv/FI/. Områdeskatalogerna innehåller sedan kataloger för delsamlingar (eller subkorpusar), t.ex. hufvudstadsbladet. De enskilda dokumenten i delsamlingarna har delats upp i kataloger enligt publiceringsår och publiceringsmånad om information av detta slag finns tillgänglig.

Språkbanken i Finland innehåller även ett antal korpusar som inte nödvändigtvis är i XML-format. De når du direkt i under katalogen /mnt/corpus/kielipankki. Katalogernas har namngetts enligt korpusarnas namn (t.ex. /mnt/corpus/kielipankki/parole-fi, eller enligt namnet på det projekt i vilket respektive korpus har samlats in (t.ex. /mnt/corpus/kielipankki/sktp.

>
>

Main Parts of the Corpus Server

  • The system
    • The Linux distribution and additional RPMs
    • CSC's configuration files and additional environment
  • The Language Bank directories
    • program and documentation directories for CSC
      • /l/bin and /l/man
    • data directories for research material:
      • /l/kielipankki/
    • a directory area, /c/appl/ling/, for contributors
      • /c/bin and /c/man for approved symbolic links
  • Directory areas for virtual language corpus servers
    • /l/venus and /corp/ are reserved for this purpose

Further information:

 
Added:
>
>

About the System

The corpus server has currently a 32-bit GNU/Linux system, running on a virtual machine and i686 hardware. The operating system distribution is "Red Hat Enterprise Linux 4 Update 4", or, more specifically "Linux RedHat 4(Nahant Update 4 2.6.9-42.0.3.EL i686)". Its core memory consists of 3,6GB RAM and 0,5GB swap.

Revision 12006-10-13 - AnssiYliJyra

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="SuomenKielipankki:Dev:WWW"
Linguistics / Corpus Server (in English only)

The Corpus Server

Tekstikokoelmien sijainti corpus-koneella

Kielipankin XML-muotoiset tekstikokoelmat on sijoitettu corpus.csc.fi-koneelle hakemistoon:

/mnt/corpus/kielipankki/teksti

Tämän hakemiston alla tekstikokoelmat on jaettu päätasoihin kielten ja lokaalien mukaan tekstikokoelmiin (esim. suomenruotsin tapauksessa sv/FI/, jossa sv vastaa ruotsin kieltä ja FI että kyseessä on Suomessa käytetty variantti), joiden alta löytyy osakokoelmakohtaiset hakemistot (esim. karjalainen/). Osakokoelmien yksittäiset dokumentit ovat lisäksi sijoitettu alihakemistoihin julkaisuvuoden (esim. 1999/ ja julkaisukuukauden (esim. 06/) mukaan, jos se on ollut mahdollista.

Kielipankkiin on asennettu käytettäväksi myös muita korpuksia ja tekstiaineistoja, jotka eivät välttämättä ole XML-muotoisia. Ne löytyvät suoraan hakemiston /mnt/corpus/kielipankki alta. Aineistot ovat jaettu hakemistoihin aineistojen nimien mukaisesti tai ainestojen koostamisesta vastuussa olevien projektien nimien mukaisesti. (Esim. Susanne-korpus löytyy hakemistosta /mnt/corpus/kielipankki/susanne.)

Hur du hittar de XML-kodade textsamlingarna på corpus-servern

Språkbankens XML-kodade textsamlingar har lagrats i följande katalog på servern corpus.csc.fi:

/mnt/corpus/kielipankki/teksti

Denna katalog innehåller kataloger för språk (som sv för svenska och fi för finska) och område (som FI för Finland). De finlandssvenska texterna hittar du således under sv/FI/. Områdeskatalogerna innehåller sedan kataloger för delsamlingar (eller subkorpusar), t.ex. hufvudstadsbladet. De enskilda dokumenten i delsamlingarna har delats upp i kataloger enligt publiceringsår och publiceringsmånad om information av detta slag finns tillgänglig.

Språkbanken i Finland innehåller även ett antal korpusar som inte nödvändigtvis är i XML-format. De når du direkt i under katalogen /mnt/corpus/kielipankki. Katalogernas har namngetts enligt korpusarnas namn (t.ex. /mnt/corpus/kielipankki/parole-fi, eller enligt namnet på det projekt i vilket respektive korpus har samlats in (t.ex. /mnt/corpus/kielipankki/sktp.

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback