Difference: MaterialsAndInstructionsFin (5 vs. 6)

Revision 62008-01-23 - PirkkoSuihkonen

Line: 1 to 1
 
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

Changed:
<
<
Talletuskoodit
>
>
http://www.ling.helsinki.fi/uhlcs/csc-korpukset/ohjeita.html
 
Deleted:
<
<
  • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienaakkosiin.

  • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.

  • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-operaatiojärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä lyhyt hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tavoitteena on, että UNIX-käyttöjärjestelmässä näkyvät merkit muunnetaan automaattisesti utf-8-merkistölle. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja on käännetty utf-8-merkistölle. Merkkikonversiot sisältävät nykyisellään (v. 2007) tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen aineistotiedostojen yhteydessä.

  • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:

"The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);

"Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle (ja xtermin pitää itsensä tietty olla utf-8 -moodissa, jos koneen xterm sen osaa). Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, komento 'env LC_CTYPE="fi_FI.utf8" emacs' toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).

Merkistön kannalta on tärkeää, minkälaisella käyttöjärjestelmällä ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. "putty" sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/X11 [x] Enable X11 forwarding) (Jack Rueter).

Ks. myös "man utf-8".

  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin kaikissa koneissa tässä vaiheessa vain verkkoselaimessa. Utf-8:n toimimistä käytännössä kehitetään ja selvitetään edelleen.

  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, samoin myös sanat, joiden alussa tai lopussa on jokin välimerkki. Monet uudemmat analysointiohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.

  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa (ks. esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html).
 

-- PirkkoSuihkonen - 18 Dec 2007

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback