This web is for holding topics deemed as old or irrelevant for KitWiki. If you think the topic doesn't belong here, please check that it's named properly (is a WikiWord) and descriptively, contains relevant data, and is put back to a relevant web.

csc-tools


CSC tools, a collection of programs to access the Language Bank databases and process XML-format corpora

Description

The CSC tools is a collection of programs to access corpora in XML format and the Lemmie database.

  • xjoinstags -h
  • checkAnnotationRepository - Tällä ohjelmalla tarkistetaan mitä julkaistua annotaatiota löytyy jollekin tietylle puhekorpuksen tallenteelle tai mihin tallenteeseen jokin annotaatiovarastossa oleva annotaatiotiedosto kuuluu. Lisätietoja valitsimella -h.
  • ict - Tällä Lemmie API 2 -ohjelmointirajapinnan päälle rakennetulla ohjelmalla voit korjata Kielipankin tekstien saneiden koodauksessa olevia virheitä ja myös lisätä saneisiin koodausta (esim. semanttista luokittelua tms.). Tekemäsi korjaukset ja lisäykset tallentuvat palvelimelle sellaisessa muodossa, jota myös WWW-Lemmie 2.0 osaa käsitellä. Ohjelmalla ei ole valitsimia. Lisätietoa ohjelman käytöstä saat antamalla corpus.csc.fi -palvelimen komentotulkille komennon perldoc ict.
  • latinize - Tämä ohjelma muuttaa syötteen UTF-8 -muodosta ISO-8859-1 -muotoon. (Putkita xgrep -ohjelman tulosteen tämän ohjelman kautta niin skandinaaviset merkit näyttävät tutuilta.)
  • lemmieconc2text - Tämä ohjelma konvertoi Lemmie 2:n levylle tallettamat KWIC-konkordanssitiedostot XML-muodosta tekstimuotoon.
  • lemmie_generateDictionary - Tällä ohjelmalla voit tuottaa Kielipankin Lemmiessä käytettävissä olevista tekstikorpuksista sanakirjatyöhön tarvittavia sana-artikkeleiden "raakamuotoja", jotka sisältävät esimerkkilauseita ja taajuustietoja. Lisätietoja --help -valitsimella.
  • lemmie_results - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa tulosolioita, joita voi avata WWW-Lemmiestä käsin (Tulokseni-välilehdeltä) tai käyttää vertailussa (Vertailu-välilehdeltä).
  • lemmie_paragraphs - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa konkordanssitiedostoja, joissa hakua vastaavat sanat tai sanayhdistelmät esiintyvät kappale kontekstina.
  • lemmie_sentences - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa konkordanssitiedostoja, joissa hakua vastaavat sanat tai sanayhdistelmät esiintyvät virke kontekstina.
  • msd2text - Tämä ohjelma poistaa morfosyntaktisesti analysoiduista teksteistä analyysin ja tulostaa tiedoston sisällön pelkällä rakennekoodauksella (virketasolle saakka). Ohjelmalla ei ole valitsimia.
  • xflat - Tämä ohjelma "litistää" XML-tiedostosta valitut osat, eli poistaa XML-puurakenteesta annettua XPath-lauseketta vastaavien oksien alta kaikki koodaus koskematta elementtien sisältöön. Huom! Ohjelman tulostama XML ei välttämättä ole validi.
  • xgrep - Tämä grep-ohjelman sukulainen poimii mm. XML-elementtejä ja -attribuutteja XML-dokumenteista XPath v1.0-lausekkeiden avulla. esimerkkejä
  • xml2text - Tämä ohjelma poistaa XML-koodauksen XML-tiedostosta ja tulostaa elementtien tekstisisällön ruudulle siististi muotoiltuna. Huom! Käytä lemmieconc2text -ohjelmaa Lemmien generoimien XML-muotoisten KWIC-konkordanssien konvertoimiseksi tekstimuotoon. Esimerkkejä xml2text-ohjelman käytöstä
  • xmlTagUsage - Tämä ohjelma laskee XML-dokumentissa käytettyjen elementtien, elementtien attribuuttien (valitsin -a) ja elementtien attribuuttien arvojen (valitsin -v valitsimen -a lisäksi) taajuuksia. Valitsimella -f järjestetään tulos laskevan taajuuden mukaan. Huom! Ohjelma ei tällä hetkellä toimi korpuspalvelimella vanhentuneiden ohjelmakirjastojen takia.
  • xmlwc - Tämä ohjelma laskee XML-dokumentin halutun elementin sisältämät sanat.
  • xvalidate - Tämä ohjelma validoi XML-syötetiedostot, eli tarkastaa niiden olevan oikein muodostettuja ja seuraavan määriteltyä DTD:tä.

Version and Copyright Information

version:

copyright: latinize © 2002 CSC - Scientific Computing Ltd.

xmlwc by © 2002 CSC - Scientific Computing Ltd.

xvalidate (C) 2002 CSC Scientific Computing Ltd.

Usage

All these tools are used directly from the command shell of corpus.csc.fi.

Help, Manuals and Documentation

help commands:
-h

further information:
-

Bugs

  • CSC does not necessarily provide updates to the tools made at CSC
  • Can't locate DBI.pm
  • The description of the components is in Finnish
  • The components are incompletely described

License Text

Other Information

Field of science: Linguistics

Available:
corpus

License: LicenseTypeP

To be copied to: https://wwwk.csc.fi/english/research/software/csc-tools
To be seen at: http://www.csc.fi/english/research/software/csc-tools
See also: KitWiki.SuomenKielipankki:Dev:Linguistics_Software, Old.ToolResources
The users may add their own comments to: ToolResource_csc-tools_Comments

When editing, please move cursor to the form below. Do not add anything here.
Topic revision: r11 - 2008-11-21 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback