Difference: SuomenKielipankki:Dev:Linguistics_CorpusServer (1 vs. 3)

Revision 32006-10-21 - AnssiYliJyra

Line: 1 to 1
 
META TOPICPARENT name="SuomenKielipankki:Dev:WWW"
Linguistics / Corpus Server (in English only)
Deleted:
<
<
 

The Corpus Server

Deleted:
<
<
 

Introduction

corpus.csc.fi, the corpus server of the Language Bank of Finland is a UNIX machine that is equipped for linguistic reseach purposes.
Line: 10 to 8
 

Connecting to the Corpus Server

The corpus server is accessed using Secure Shell (ssh) tools. See connecting instructions for detailed information.
Added:
>
>

Using the Tools on the Corpus Server

The basic software which typically comes with a Linux/Unix server including the GNU text utilities and other basic shell commands and file utilities, as well as common text editors, and text formatting programs etc. Language technology tools include free or proprietary parsers, linguistic knowledge bases and language technology software modules.

The list of useful software items provides (or will provide) links to the more detailed information on using.

 

Main Parts of the Corpus Server

  • The system
    • The Linux distribution and additional RPMs

Revision 22006-10-20 - AnssiYliJyra

Line: 1 to 1
 
META TOPICPARENT name="SuomenKielipankki:Dev:WWW"
Linguistics / Corpus Server (in English only)

The Corpus Server

Changed:
<
<

Tekstikokoelmien sijainti corpus-koneella

>
>

Introduction

corpus.csc.fi, the corpus server of the Language Bank of Finland is a UNIX machine that is equipped for linguistic reseach purposes.
 
Changed:
<
<
Kielipankin XML-muotoiset tekstikokoelmat on sijoitettu corpus.csc.fi-koneelle hakemistoon:
>
>

Connecting to the Corpus Server

The corpus server is accessed using Secure Shell (ssh) tools. See connecting instructions for detailed information.
 
Changed:
<
<
/mnt/corpus/kielipankki/teksti

Tämän hakemiston alla tekstikokoelmat on jaettu päätasoihin kielten ja lokaalien mukaan tekstikokoelmiin (esim. suomenruotsin tapauksessa sv/FI/, jossa sv vastaa ruotsin kieltä ja FI että kyseessä on Suomessa käytetty variantti), joiden alta löytyy osakokoelmakohtaiset hakemistot (esim. karjalainen/). Osakokoelmien yksittäiset dokumentit ovat lisäksi sijoitettu alihakemistoihin julkaisuvuoden (esim. 1999/ ja julkaisukuukauden (esim. 06/) mukaan, jos se on ollut mahdollista.

Kielipankkiin on asennettu käytettäväksi myös muita korpuksia ja tekstiaineistoja, jotka eivät välttämättä ole XML-muotoisia. Ne löytyvät suoraan hakemiston /mnt/corpus/kielipankki alta. Aineistot ovat jaettu hakemistoihin aineistojen nimien mukaisesti tai ainestojen koostamisesta vastuussa olevien projektien nimien mukaisesti. (Esim. Susanne-korpus löytyy hakemistosta /mnt/corpus/kielipankki/susanne.)

Hur du hittar de XML-kodade textsamlingarna på corpus-servern

Språkbankens XML-kodade textsamlingar har lagrats i följande katalog på servern corpus.csc.fi:

/mnt/corpus/kielipankki/teksti

Denna katalog innehåller kataloger för språk (som sv för svenska och fi för finska) och område (som FI för Finland). De finlandssvenska texterna hittar du således under sv/FI/. Områdeskatalogerna innehåller sedan kataloger för delsamlingar (eller subkorpusar), t.ex. hufvudstadsbladet. De enskilda dokumenten i delsamlingarna har delats upp i kataloger enligt publiceringsår och publiceringsmånad om information av detta slag finns tillgänglig.

Språkbanken i Finland innehåller även ett antal korpusar som inte nödvändigtvis är i XML-format. De når du direkt i under katalogen /mnt/corpus/kielipankki. Katalogernas har namngetts enligt korpusarnas namn (t.ex. /mnt/corpus/kielipankki/parole-fi, eller enligt namnet på det projekt i vilket respektive korpus har samlats in (t.ex. /mnt/corpus/kielipankki/sktp.

>
>

Main Parts of the Corpus Server

  • The system
    • The Linux distribution and additional RPMs
    • CSC's configuration files and additional environment
  • The Language Bank directories
    • program and documentation directories for CSC
      • /l/bin and /l/man
    • data directories for research material:
      • /l/kielipankki/
    • a directory area, /c/appl/ling/, for contributors
      • /c/bin and /c/man for approved symbolic links
  • Directory areas for virtual language corpus servers
    • /l/venus and /corp/ are reserved for this purpose

Further information:

 
Added:
>
>

About the System

The corpus server has currently a 32-bit GNU/Linux system, running on a virtual machine and i686 hardware. The operating system distribution is "Red Hat Enterprise Linux 4 Update 4", or, more specifically "Linux RedHat 4(Nahant Update 4 2.6.9-42.0.3.EL i686)". Its core memory consists of 3,6GB RAM and 0,5GB swap.

Revision 12006-10-13 - AnssiYliJyra

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="SuomenKielipankki:Dev:WWW"
Linguistics / Corpus Server (in English only)

The Corpus Server

Tekstikokoelmien sijainti corpus-koneella

Kielipankin XML-muotoiset tekstikokoelmat on sijoitettu corpus.csc.fi-koneelle hakemistoon:

/mnt/corpus/kielipankki/teksti

Tämän hakemiston alla tekstikokoelmat on jaettu päätasoihin kielten ja lokaalien mukaan tekstikokoelmiin (esim. suomenruotsin tapauksessa sv/FI/, jossa sv vastaa ruotsin kieltä ja FI että kyseessä on Suomessa käytetty variantti), joiden alta löytyy osakokoelmakohtaiset hakemistot (esim. karjalainen/). Osakokoelmien yksittäiset dokumentit ovat lisäksi sijoitettu alihakemistoihin julkaisuvuoden (esim. 1999/ ja julkaisukuukauden (esim. 06/) mukaan, jos se on ollut mahdollista.

Kielipankkiin on asennettu käytettäväksi myös muita korpuksia ja tekstiaineistoja, jotka eivät välttämättä ole XML-muotoisia. Ne löytyvät suoraan hakemiston /mnt/corpus/kielipankki alta. Aineistot ovat jaettu hakemistoihin aineistojen nimien mukaisesti tai ainestojen koostamisesta vastuussa olevien projektien nimien mukaisesti. (Esim. Susanne-korpus löytyy hakemistosta /mnt/corpus/kielipankki/susanne.)

Hur du hittar de XML-kodade textsamlingarna på corpus-servern

Språkbankens XML-kodade textsamlingar har lagrats i följande katalog på servern corpus.csc.fi:

/mnt/corpus/kielipankki/teksti

Denna katalog innehåller kataloger för språk (som sv för svenska och fi för finska) och område (som FI för Finland). De finlandssvenska texterna hittar du således under sv/FI/. Områdeskatalogerna innehåller sedan kataloger för delsamlingar (eller subkorpusar), t.ex. hufvudstadsbladet. De enskilda dokumenten i delsamlingarna har delats upp i kataloger enligt publiceringsår och publiceringsmånad om information av detta slag finns tillgänglig.

Språkbanken i Finland innehåller även ett antal korpusar som inte nödvändigtvis är i XML-format. De når du direkt i under katalogen /mnt/corpus/kielipankki. Katalogernas har namngetts enligt korpusarnas namn (t.ex. /mnt/corpus/kielipankki/parole-fi, eller enligt namnet på det projekt i vilket respektive korpus har samlats in (t.ex. /mnt/corpus/kielipankki/sktp.

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback