Difference: SuomenKielipankki:Tools:forXML (1 vs. 2)

Revision 22006-12-05 - AnssiYliJyra

Line: 1 to 1
 
META TOPICPARENT name="SuomenKielipankki:Tools"

Tools in the Language Bank: XML tools

Line: 9 to 9
 
  • ict (/mnt/corpus/appl/ling/tools) .... has bad library paths, see README

Traditional Kielipankki tools (/l/appl/ling/tools/) original documentation
Deleted:
<
<
  • lemmieshell (/l/appl/ling/lemmie/latest/bin/)
  • xjoinstags -h
  • checkAnnotationRepository - Tällä ohjelmalla tarkistetaan mitä julkaistua annotaatiota löytyy jollekin tietylle puhekorpuksen tallenteelle tai mihin tallenteeseen jokin annotaatiovarastossa oleva annotaatiotiedosto kuuluu. Lisätietoja valitsimella -h.
  • ict - Tällä Lemmie API 2 -ohjelmointirajapinnan päälle rakennetulla ohjelmalla voit korjata Kielipankin tekstien saneiden koodauksessa olevia virheitä ja myös lisätä saneisiin koodausta (esim. semanttista luokittelua tms.). Tekemäsi korjaukset ja lisäykset tallentuvat palvelimelle sellaisessa muodossa, jota myös WWW-Lemmie 2.0 osaa käsitellä. Ohjelmalla ei ole valitsimia. Lisätietoa ohjelman käytöstä saat antamalla corpus.csc.fi -palvelimen komentotulkille komennon perldoc ict.
  • latinize - Tämä ohjelma muuttaa syötteen UTF-8 -muodosta ISO-8859-1 -muotoon. (Putkita xgrep -ohjelman tulosteen tämän ohjelman kautta niin skandinaaviset merkit näyttävät tutuilta.)
  • lemmieconc2text - Tämä ohjelma konvertoi Lemmie 2:n levylle tallettamat KWIC-konkordanssitiedostot XML-muodosta tekstimuotoon.
  • lemmie_generateDictionary - Tällä ohjelmalla voit tuottaa Kielipankin Lemmiessä käytettävissä olevista tekstikorpuksista sanakirjatyöhön tarvittavia sana-artikkeleiden "raakamuotoja", jotka sisältävät esimerkkilauseita ja taajuustietoja. Lisätietoja --help -valitsimella.
  • lemmie_results - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa tulosolioita, joita voi avata WWW-Lemmiestä käsin (Tulokseni-välilehdeltä) tai käyttää vertailussa (Vertailu-välilehdeltä).
  • lemmie_paragraphs - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa konkordanssitiedostoja, joissa hakua vastaavat sanat tai sanayhdistelmät esiintyvät kappale kontekstina.
  • lemmie_sentences - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa konkordanssitiedostoja, joissa hakua vastaavat sanat tai sanayhdistelmät esiintyvät virke kontekstina.
  • msd2text - Tämä ohjelma poistaa morfosyntaktisesti analysoiduista teksteistä analyysin ja tulostaa tiedoston sisällön pelkällä rakennekoodauksella (virketasolle saakka). Ohjelmalla ei ole valitsimia.
  • xflat - Tämä ohjelma "litistää" XML-tiedostosta valitut osat, eli poistaa XML-puurakenteesta annettua XPath-lauseketta vastaavien oksien alta kaikki koodaus koskematta elementtien sisältöön. Huom! Ohjelman tulostama XML ei välttämättä ole validi.
  • xgrep - Tämä grep-ohjelman sukulainen poimii mm. XML-elementtejä ja -attribuutteja XML-dokumenteista XPath v1.0-lausekkeiden avulla. esimerkkejä
  • xml2text - Tämä ohjelma poistaa XML-koodauksen XML-tiedostosta ja tulostaa elementtien tekstisisällön ruudulle siististi muotoiltuna. Huom! Käytä lemmieconc2text -ohjelmaa Lemmien generoimien XML-muotoisten KWIC-konkordanssien konvertoimiseksi tekstimuotoon. Esimerkkejä xml2text-ohjelman käytöstä
  • xmlTagUsage - Tämä ohjelma laskee XML-dokumentissa käytettyjen elementtien, elementtien attribuuttien (valitsin -a) ja elementtien attribuuttien arvojen (valitsin -v valitsimen -a lisäksi) taajuuksia. Valitsimella -f järjestetään tulos laskevan taajuuden mukaan. Huom! Ohjelma ei tällä hetkellä toimi korpuspalvelimella vanhentuneiden ohjelmakirjastojen takia.
  • xmlwc - Tämä ohjelma laskee XML-dokumentin halutun elementin sisältämät sanat.
  • xvalidate - Tämä ohjelma validoi XML-syötetiedostot, eli tarkastaa niiden olevan oikein muodostettuja ja seuraavan määriteltyä DTD:tä.
  Please enter the wishes below:
 
<--/commentPlugin-->

Revision 12006-09-05 - AnssiYliJyra

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="SuomenKielipankki:Tools"

Tools in the Language Bank: XML tools

The Following Tools Exists in the Corpus Server:
  • xmllint (/usr/bin) - Tällä ohjelmalla voit käsitellä XML-dokumenttia eri tavoin. Kielipankin käyttöä varten ohjelman tärkeimmät valitsimet lienevät --format, jolla voit sisentää XML-dokumentin uudestaan, --encode encoding, jolla voit konvertoida XML-dokumentin merkistöön encoding (esim. UTF-8 tai ISO-8859-1) ja --loaddtd, jolla varmistat, että Kielipankin XML-muodon DTD latautuu eikä xmllint tämän takia käyttäydy kummallisesti.
  • xmln - Tämä ohjelma muuntaa XML-tiedoston PYX-muotoon, joka kaikessa yksinkertaisuudessaan on koodaustapa, jossa rakennetieto ja data on laitettu omille riveilleen niin, että tiedostoa voi käsitellä tavallisilla Unix-työkaluilla (grep, awk, sort jne.). Xmln -ohjelma on hyödyllinen, jos esim. haluaa laskea frekvenssitietoja suoraan morfosyntaktisesti koodatuista XML-muotoisista korpustiedostoista ilman ohjelmointia. Esimerkkejä xmln-ohjelman käytöstä tavallisten Unix-työkalujen kanssa
  • tei2snt (/l/appl/ling/contrib/bin/)
  • ict (/mnt/corpus/appl/ling/tools) .... has bad library paths, see README

Traditional Kielipankki tools (/l/appl/ling/tools/) original documentation
  • lemmieshell (/l/appl/ling/lemmie/latest/bin/)
  • xjoinstags -h
  • checkAnnotationRepository - Tällä ohjelmalla tarkistetaan mitä julkaistua annotaatiota löytyy jollekin tietylle puhekorpuksen tallenteelle tai mihin tallenteeseen jokin annotaatiovarastossa oleva annotaatiotiedosto kuuluu. Lisätietoja valitsimella -h.
  • ict - Tällä Lemmie API 2 -ohjelmointirajapinnan päälle rakennetulla ohjelmalla voit korjata Kielipankin tekstien saneiden koodauksessa olevia virheitä ja myös lisätä saneisiin koodausta (esim. semanttista luokittelua tms.). Tekemäsi korjaukset ja lisäykset tallentuvat palvelimelle sellaisessa muodossa, jota myös WWW-Lemmie 2.0 osaa käsitellä. Ohjelmalla ei ole valitsimia. Lisätietoa ohjelman käytöstä saat antamalla corpus.csc.fi -palvelimen komentotulkille komennon perldoc ict.
  • latinize - Tämä ohjelma muuttaa syötteen UTF-8 -muodosta ISO-8859-1 -muotoon. (Putkita xgrep -ohjelman tulosteen tämän ohjelman kautta niin skandinaaviset merkit näyttävät tutuilta.)
  • lemmieconc2text - Tämä ohjelma konvertoi Lemmie 2:n levylle tallettamat KWIC-konkordanssitiedostot XML-muodosta tekstimuotoon.
  • lemmie_generateDictionary - Tällä ohjelmalla voit tuottaa Kielipankin Lemmiessä käytettävissä olevista tekstikorpuksista sanakirjatyöhön tarvittavia sana-artikkeleiden "raakamuotoja", jotka sisältävät esimerkkilauseita ja taajuustietoja. Lisätietoja --help -valitsimella.
  • lemmie_results - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa tulosolioita, joita voi avata WWW-Lemmiestä käsin (Tulokseni-välilehdeltä) tai käyttää vertailussa (Vertailu-välilehdeltä).
  • lemmie_paragraphs - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa konkordanssitiedostoja, joissa hakua vastaavat sanat tai sanayhdistelmät esiintyvät kappale kontekstina.
  • lemmie_sentences - Tällä ohjelmalla voit tehdä isoja hakuja Lemmiellä piittaamatta puskurimuistin koosta. Ohjelma on tekstipohjainen interaktiivinen käyttöliittymä Lemmieen ja tuottaa konkordanssitiedostoja, joissa hakua vastaavat sanat tai sanayhdistelmät esiintyvät virke kontekstina.
  • msd2text - Tämä ohjelma poistaa morfosyntaktisesti analysoiduista teksteistä analyysin ja tulostaa tiedoston sisällön pelkällä rakennekoodauksella (virketasolle saakka). Ohjelmalla ei ole valitsimia.
  • xflat - Tämä ohjelma "litistää" XML-tiedostosta valitut osat, eli poistaa XML-puurakenteesta annettua XPath-lauseketta vastaavien oksien alta kaikki koodaus koskematta elementtien sisältöön. Huom! Ohjelman tulostama XML ei välttämättä ole validi.
  • xgrep - Tämä grep-ohjelman sukulainen poimii mm. XML-elementtejä ja -attribuutteja XML-dokumenteista XPath v1.0-lausekkeiden avulla. esimerkkejä
  • xml2text - Tämä ohjelma poistaa XML-koodauksen XML-tiedostosta ja tulostaa elementtien tekstisisällön ruudulle siististi muotoiltuna. Huom! Käytä lemmieconc2text -ohjelmaa Lemmien generoimien XML-muotoisten KWIC-konkordanssien konvertoimiseksi tekstimuotoon. Esimerkkejä xml2text-ohjelman käytöstä
  • xmlTagUsage - Tämä ohjelma laskee XML-dokumentissa käytettyjen elementtien, elementtien attribuuttien (valitsin -a) ja elementtien attribuuttien arvojen (valitsin -v valitsimen -a lisäksi) taajuuksia. Valitsimella -f järjestetään tulos laskevan taajuuden mukaan. Huom! Ohjelma ei tällä hetkellä toimi korpuspalvelimella vanhentuneiden ohjelmakirjastojen takia.
  • xmlwc - Tämä ohjelma laskee XML-dokumentin halutun elementin sisältämät sanat.
  • xvalidate - Tämä ohjelma validoi XML-syötetiedostot, eli tarkastaa niiden olevan oikein muodostettuja ja seuraavan määriteltyä DTD:tä.

Please enter the wishes below:

 
<--/commentPlugin-->
  • Support for editing XML, XSL and XHTML files is definitely needed. Emacs with nXML mode is quite usable but this mode is not yet installed at Corpus, see http://www.thaiopensource.com/nxml-mode/ -- KimmoKoskenniemi - 10 May 2006 - 10:26
  • xsltproc would be the standard tool to convert XML files into other XML forms, to HTML or to text. It is restricted to the XSL 1.0 types of transformations, i.e. only one result file out of the source file among other thing. But xlstproc is easy to use and efficient (as compared to the Java based systems). -- KimmoKoskenniemi - 10 May 2006 - 10:12
  • SSAX - SSAX is a full-featured, algorithmically optimal, pure-functional parser, which can act as a stream processor. A SSAX functional XML parsing framework consists of a DOM/SXML parser, a SAX parser, and a supporting library of lexing and parsing procedures. The procedures in the package can be used separately to tokenize or parse various pieces of XML documents. The framework supports XML Namespaces, character, internal and external parsed entities, attribute value normalization, processing instructions and CDATA sections. The package includes a semi-validating SXML parser: a DOM-mode parser that is an instantiation of a SAX parser (called SSAX). This SourceForge project offers tools to inter-convert between an angular-bracket and a more efficient S-expression-based notations for markup documents, and to manipulate and query xML data in Scheme. The main components of the project are SSAX, SXML, SXPath, and SXSLT. more links See also XML and S-Expressions.

-- AnssiYliJyra - 05 Sep 2006

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback