Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

  • Talletuskoodit
    • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienaakkosiin.
    • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.
    • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-operaatiojärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä lyhyt hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tavoitteena on, että UNIX-käyttöjärjestelmässä näkyvät merkit muunnetaan automaattisesti utf-8-merkistölle. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja on käännetty utf-8-merkistölle. Merkkikonversiot eivät vielä täysin toimi: nykyisellään ne sisältävät tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen aineisto-tiedostojen yhteydessä.
    • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:
      • (1) "The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);
      • (2) "Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle. Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, env LC_CTYPE="fi_FI.utf8" emacs toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).
      • Merkistön kannalta on tärkeää, millä koneella ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. putty sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/ssh) (Jack Rueter).
      • Ks. myös "man utf-8".
  • Näppäimistöltä syöttäminen: utf-8-merkkien syöttäminen näppäimistöltä emacsissa tapahtuu seuraavasti: esc - x, ucs, sarkain, enter, nelimerkkinen koodi. Merkkikooditaulukoita: Helsingin yliopisto, yleisen kielitieteen laitos: http://www.ling.helsinki.fi/filt/info/mes2/merkkien-nimet.html); Petri Immonen: http://www.saunalahti.fi/wpoet/fin/char.html; UNICODE: http://unicode.org/, http://unicode.org/standard/translations/finnish.html.
  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin tässä vaiheessa vain verkkoselaimessa. Käytännössä tarvittaisiin siis editori, joka pystyy myös tulostamaan merkit.
  • Tulostaminen paperille: Ei mainittavia erityisjärjestelyjä.
  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, aamoin kuin sanan, jonka alussa tai lopussa on jokin välimerkki. Työn viimeisessä vaiheessa Monet uudemmat ohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.
  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa, esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html.

-- PirkkoSuihkonen - 18 Dec 2007

Edit | Attach | Print version | History: r6 < r5 < r4 < r3 < r2 | Backlinks | Raw View | Raw edit | More topic actions...
Topic revision: r4 - 2007-12-19 - PirkkoSuihkonen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback