Difference: MaterialsAndInstructionsFin (1 vs. 6)

Revision 62008-01-23 - PirkkoSuihkonen

Line: 1 to 1
 
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

Changed:
<
<
Talletuskoodit
>
>
http://www.ling.helsinki.fi/uhlcs/csc-korpukset/ohjeita.html
 
Deleted:
<
<
  • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienaakkosiin.

  • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.

  • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-operaatiojärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä lyhyt hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tavoitteena on, että UNIX-käyttöjärjestelmässä näkyvät merkit muunnetaan automaattisesti utf-8-merkistölle. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja on käännetty utf-8-merkistölle. Merkkikonversiot sisältävät nykyisellään (v. 2007) tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen aineistotiedostojen yhteydessä.

  • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:

"The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);

"Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle (ja xtermin pitää itsensä tietty olla utf-8 -moodissa, jos koneen xterm sen osaa). Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, komento 'env LC_CTYPE="fi_FI.utf8" emacs' toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).

Merkistön kannalta on tärkeää, minkälaisella käyttöjärjestelmällä ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. "putty" sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/X11 [x] Enable X11 forwarding) (Jack Rueter).

Ks. myös "man utf-8".

  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin kaikissa koneissa tässä vaiheessa vain verkkoselaimessa. Utf-8:n toimimistä käytännössä kehitetään ja selvitetään edelleen.

  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, samoin myös sanat, joiden alussa tai lopussa on jokin välimerkki. Monet uudemmat analysointiohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.

  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa (ks. esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html).
 

-- PirkkoSuihkonen - 18 Dec 2007

Revision 52008-01-13 - PirkkoSuihkonen

Line: 1 to 1
 
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

Changed:
<
<
  • Talletuskoodit
    • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienaakkosiin.
    • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.
    • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-operaatiojärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä lyhyt hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tavoitteena on, että UNIX-käyttöjärjestelmässä näkyvät merkit muunnetaan automaattisesti utf-8-merkistölle. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja on käännetty utf-8-merkistölle. Merkkikonversiot eivät vielä täysin toimi: nykyisellään ne sisältävät tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen aineisto-tiedostojen yhteydessä.
    • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:
      • (1) "The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);
      • (2) "Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle. Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, env LC_CTYPE="fi_FI.utf8" emacs toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).
      • Merkistön kannalta on tärkeää, millä koneella ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. putty sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/ssh) (Jack Rueter).
      • Ks. myös "man utf-8".
  • Näppäimistöltä syöttäminen: utf-8-merkkien syöttäminen näppäimistöltä emacsissa tapahtuu seuraavasti: esc - x, ucs, sarkain, enter, nelimerkkinen koodi. Merkkikooditaulukoita: Helsingin yliopisto, yleisen kielitieteen laitos: http://www.ling.helsinki.fi/filt/info/mes2/merkkien-nimet.html); Petri Immonen: http://www.saunalahti.fi/wpoet/fin/char.html; UNICODE: http://unicode.org/, http://unicode.org/standard/translations/finnish.html.
  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin tässä vaiheessa vain verkkoselaimessa. Käytännössä tarvittaisiin siis editori, joka pystyy myös tulostamaan merkit.
  • Tulostaminen paperille: Ei mainittavia erityisjärjestelyjä.
  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, aamoin kuin sanan, jonka alussa tai lopussa on jokin välimerkki. Työn viimeisessä vaiheessa Monet uudemmat ohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.
  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa, esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html.
>
>
Talletuskoodit
 
Added:
>
>
  • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienaakkosiin.
 
Added:
>
>
  • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.

  • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-operaatiojärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä lyhyt hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tavoitteena on, että UNIX-käyttöjärjestelmässä näkyvät merkit muunnetaan automaattisesti utf-8-merkistölle. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja on käännetty utf-8-merkistölle. Merkkikonversiot sisältävät nykyisellään (v. 2007) tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen aineistotiedostojen yhteydessä.

  • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:

"The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);

"Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle (ja xtermin pitää itsensä tietty olla utf-8 -moodissa, jos koneen xterm sen osaa). Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, komento 'env LC_CTYPE="fi_FI.utf8" emacs' toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).

Merkistön kannalta on tärkeää, minkälaisella käyttöjärjestelmällä ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. "putty" sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/X11 [x] Enable X11 forwarding) (Jack Rueter).

Ks. myös "man utf-8".

  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin kaikissa koneissa tässä vaiheessa vain verkkoselaimessa. Utf-8:n toimimistä käytännössä kehitetään ja selvitetään edelleen.

  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, samoin myös sanat, joiden alussa tai lopussa on jokin välimerkki. Monet uudemmat analysointiohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.

  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa (ks. esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html).
 

-- PirkkoSuihkonen - 18 Dec 2007

Revision 42007-12-19 - PirkkoSuihkonen

Line: 1 to 1
 
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

Changed:
<
<
  • Talletuskoodit
    • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienakkosiin.
    • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.
    • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun nämä tekstit siirrettiin UNIX-operaatiojärjestelmässä, merkit korvautuivat Latin-1-merkistöllä. Käynnissä oli hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Ensimmäinen versio aineistosta on käännetty UNICODE-merkistölle. UNICODE-merkistö ei vielä täysin toimi. Käännösskriptit ovat käytössä tiedostojen yhteydessä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Nykyisellään ne sisältävät tiedon kielen kirjoitusmerkeistä.
    • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:
>
>
  • Talletuskoodit
    • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienaakkosiin.
    • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.
    • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on alkujaan kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun kyrillisillä kirjoitusmerkeillä kirjoitetut tekstit siirrettiin UNIX-operaatiojärjestelmään, merkit korvautuivat Latin-1-merkistöllä. Kesällä 2003 oli käynnissä lyhyt hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Tavoitteena on, että UNIX-käyttöjärjestelmässä näkyvät merkit muunnetaan automaattisesti utf-8-merkistölle. Tätä varten laadittiin lyhyitä ohjelmia, skriptejä, ja näiden skriptien avulla on aineistoja on käännetty utf-8-merkistölle. Merkkikonversiot eivät vielä täysin toimi: nykyisellään ne sisältävät tiedon kielen kirjoitusmerkeistä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Käännösskriptit ovat saatavilla omissa hakemistoissaan kunkin kielen aineisto-tiedostojen yhteydessä.
    • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:
 
      • (1) "The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);
      • (2) "Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle. Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, env LC_CTYPE="fi_FI.utf8" emacs toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).
      • Merkistön kannalta on tärkeää, millä koneella ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. putty sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/ssh) (Jack Rueter).
      • Ks. myös "man utf-8".
Changed:
<
<
  • Näppäimistöltä syöttäminen: utf-8-merkkien syöttäminen näppäimistöltä emacsissa tapahtuu seuraavasti: esc - x, ucs, sarkain, enter, nelimerkkinen koodi. Merkkikooditaulukoita: Helsingin yliopisto, yleisen kielitieteen laitos: http://www.ling.helsinki.fi/filt/info/mes2/merkkien-nimet.html); Petri Immonen: http://www.saunalahti.fi/wpoet/fin/char.html; UNICODE: http://unicode.org/, http://unicode.org/standard/translations/finnish.html.
  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin tässä vaiheessa vain verkkoselaimessa. Käytännössä tarvittaisiin siis editori, joka pystyy myös tulostamaan merkit. (Saadaanko utf-8 merkit näkyviin "oikeanlaisina" x-term-päätteillä?).
  • Tulostaminen paperille:
  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat tunnistivat vain pienaakkoset. Työn viimeisessä vaiheessa Monet uudemmat ohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.
  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa, esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html.
>
>
  • Näppäimistöltä syöttäminen: utf-8-merkkien syöttäminen näppäimistöltä emacsissa tapahtuu seuraavasti: esc - x, ucs, sarkain, enter, nelimerkkinen koodi. Merkkikooditaulukoita: Helsingin yliopisto, yleisen kielitieteen laitos: http://www.ling.helsinki.fi/filt/info/mes2/merkkien-nimet.html); Petri Immonen: http://www.saunalahti.fi/wpoet/fin/char.html; UNICODE: http://unicode.org/, http://unicode.org/standard/translations/finnish.html.
  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin tässä vaiheessa vain verkkoselaimessa. Käytännössä tarvittaisiin siis editori, joka pystyy myös tulostamaan merkit.
  • Tulostaminen paperille: Ei mainittavia erityisjärjestelyjä.
  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat käsittelivät pien- ja suuraakkosilla kirjoitetut sanat eri sanoina, aamoin kuin sanan, jonka alussa tai lopussa on jokin välimerkki. Työn viimeisessä vaiheessa Monet uudemmat ohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.
  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa, esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html.
 

Revision 32007-12-19 - PirkkoSuihkonen

Line: 1 to 1
 
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

Revision 22007-12-18 - PirkkoSuihkonen

Line: 1 to 1
 
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

Deleted:
<
<
- InstructionsForEditingAndPrintingAndEmacs
 
  • Talletuskoodit
    • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienakkosiin.
    • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.

Revision 12007-12-18 - PirkkoSuihkonen

Line: 1 to 1
Added:
>
>
META TOPICPARENT name="CorpusMigrationMarkup"

Erikoodisten materiaalien käsittelymenettelyt ja -ohjeet

- InstructionsForEditingAndPrintingAndEmacs

  • Talletuskoodit
    • Juokseva tekti, ASCII: Se, miten ASCII-merkistöllä olevia korpuksia käsitellään, riippuu kielestä. Jos merkistö riittää kattamaan kielen kirjoitusjärjestelmässä käytetyt kirjainmerkit, riittää ASCII-merkistö sellaisenaan. Poikkeuksen muodostaa esim. latinan korpus, joka on kirjoitettu suuraakkosin. Tarvittaessa merkit muutetaan pienakkosiin.
    • Juokseva tekti, Latin-1: Kaikkia Latin-1-merkistöllä olevat tekstejä voidaan sellaisenaan työstää emacs-editorissa ja unix-käyttöjärjestelmässä, jotka ovat käytössä CSC:n koneella.
    • Juokseva teksti, Latin-1 formaatti, joka käännetään utf-8-merkistölle: Merkittävä osa korpuksista on kirjoitettu kyrillisellä aakkostolla. Useimmissa kielissä tämä aakkosto kattaa venäjän aakkoston lisäksi huomattavan määrän lisämerkkejä. Kun nämä tekstit siirrettiin UNIX-operaatiojärjestelmässä, merkit korvautuivat Latin-1-merkistöllä. Käynnissä oli hanke, jossa Latin-1-merkkejä sovitettiin UNICODE-muotoon. Ensimmäinen versio aineistosta on käännetty UNICODE-merkistölle. UNICODE-merkistö ei vielä täysin toimi. Käännösskriptit ovat käytössä tiedostojen yhteydessä. Skriptejä täytyy siis sovittaa edelleen niin, että niitä voidaan käyttää korvaamaan Latin-1-merkit. Nykyisellään ne sisältävät tiedon kielen kirjoitusmerkeistä.
    • Juokseva tekti, utf-8: Kun käytössä on UNICODE-merkkijärjestelmä, saadaan emacsissa utf-8-merkit näkyviin merkkikoodeina:
      • (1) "The most consistent way to get emacs to work correctly with unicode files is to use prefer-coding-system to set utf-8 as the preferred encoding. Other useful commands are set-buffer-coding-system, set-terminal-coding-system and set-keyboard-coding-system." (Eero Vitie, http://forums.csc.fi/kitwiki/pilot/view/KitWiki/LinuxToolsUnicode);
      • (2) "Fontit tulevat siltä koneelta, jossa on X-näyttösi, ja emacsille pitää kertoa, että on UTF-8 -ympäristö. Eroa on siinä, onko emacs omassa ikkunassaan, jolloin emacs itse käyttää fontteja, vai onko emacs xtermissä tekstimoodissa, jolloin xterm käyttää fontteja ja emacs vain kirjoittaa utf-merkkejä näytölle. Kummallakin tavalla sain utf-8 merkit, mutta jos emacs oli ilman omaa ikkunaa, se ei haistellut oliko tiedostossa utf8-merkkejä vai ei, vaan oletti aina, mutta jos oli omassa ikkunassa, se haisteli oliko tiedosto latin1-merkistöllä, ja toimi ns. oikein. Eli, env LC_CTYPE="fi_FI.utf8" emacs toimii linuxeissa oikein, eli käynnistää emacsin omaan ikkunaansa, joka osaa haistella onko tiedosto utf8- vai latin1-merkistöinen ja sen mukaan näyttää merkit. Samassa tiedostossa ei voi olla latin1- ja utf8-merkkejä, jos emacs löytää yhdenkin latin1 merkin tiedostosta, se tulkitaan kokonaisuudessaan latin1-tiedostoksi." (Jyrki Havia, 2007).
      • Merkistön kannalta on tärkeää, millä koneella ja millä ssh-ohjelmalla editoidaan korpuksia. Esim. putty sisältää option, jolla käytetään utf-8-koodistoa (/Translations/UTF8 ja /SSH/ssh) (Jack Rueter).
      • Ks. myös "man utf-8".
  • Näppäimistöltä syöttäminen: utf-8-merkkien syöttäminen näppäimistöltä emacsissa tapahtuu seuraavasti: esc - x, ucs, sarkain, enter, nelimerkkinen koodi. Merkkikooditaulukoita: Helsingin yliopisto, yleisen kielitieteen laitos: http://www.ling.helsinki.fi/filt/info/mes2/merkkien-nimet.html); Petri Immonen: http://www.saunalahti.fi/wpoet/fin/char.html; UNICODE: http://unicode.org/, http://unicode.org/standard/translations/finnish.html.
  • Ruudulla näkyminen: Emacsissa merkkien ilmiasu säilyy merkkikoodeina, mutta kirjainmerkkeinä ne saadaan näkyviin tässä vaiheessa vain verkkoselaimessa. Käytännössä tarvittaisiin siis editori, joka pystyy myös tulostamaan merkit. (Saadaanko utf-8 merkit näkyviin "oikeanlaisina" x-term-päätteillä?).
  • Tulostaminen paperille:
  • Preprosessoidut aineistot: Monet vanhemmista aineistoista on preprosessoitu, ts. muokattu siten, että välimerkit on erotettu tekstistä ja isot kirjaimet on muunnettu pieniksi kirjaimiksi käyttämällä merkkiyhdistelmää, esim. *a = A, jne. Preprosessointi on ollut tärkeä vaihe siksi, että varhemmin monet korpuksia analysoivat ohjelmat tunnistivat vain pienaakkoset. Työn viimeisessä vaiheessa Monet uudemmat ohjelmat on valmistettu niin, ettei preprosessointia enää tarvita.
  • Morfologisest analysoidut aineistot: Morfologisesti analysoiduissa aineistoissa käytetyt indeksit on lueteltu korpusten lähdekirjallisuudessa, esim. uralilaisten kielten koodauksessa käytetyt indeksit: http://www.ling.helsinki.fi/uhlcs/data/tags.html.

-- PirkkoSuihkonen - 18 Dec 2007

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback