About this document

Kansallisiin kieli- ja kulttuurisidonnaisuuksiin tietotekniikassa liittyviä työkohteita

Tämä muistio on laadittu Kotimaisten kielten tutkimuskeskukselta (Kotus) 1.7.2004 saatuna toimeksiantona “kotimaisten kielten aiheuttamista vaatimuksista tietojärjestelmien kehittämisessä“. Tehtävänä on ollut selvittää nykytilanne ja Suomen kannalta tarvittavat toimenpiteet ja pitää yhteydet Unicode-ryhmään. Lähtökohtana on, että Kielitoimiston vastuulla olevan kielenhuollon piiriin kuuluvat laajasti ottaen myös muista kulttuurisidonnaisuuksista johtuvat käytännöt.

Taustaksi voidaan todeta, että tietotekniikkateollisuuden tuotteissaan osoittama eri kieli- ja kulttuuriympäristöjen ilmeinen syrjintä on alkujaan aidosti johtunut useista käytettävissä olleen teknologian asettamista rajoituksista. Nyt, kun muistin ja suorituskyvyn hinta ei enää ole esteenä, varsinaiseksi ongelmaksi on noussut, etteivät valmistajat todellakaan tiedä, mikä olisi heidän tuotteidensa oikeana pidettävä toimintatapa. Heillä tuskin on mitään halua määrätä, millaisia käytäntöjä kussakin ympäristössä tulisi noudattaa, mutta kaikkien toteutusten pohjana on aina käytettävä joitakin määrityksiä. Nykyistä asetelmaa kuvaa hyvin se, että lukuisat valmistajat ovat suostuneet tältä osin omien toteutustensa julkiseen vertailuun sekä muihin toteutuksiin että käyttäjälähtöisiin määrityksiin (jatkossa esitettävän Unicoden CLDR-projektin verkkosivuilla). Valitettavan usein on kuitenkin havaittavissa, että monia käyttäjiä, myös viranomaisia, ohjaa tietoteknisiä vaatimuksia esitettäessä tiedon asemesta uskonpuute siihen, millaisiin toteutuksiin tekniikka taipuisi, joten aidotkin vaatimukset joutuvat helposti itsesensuurin kohteiksi.

Tässä muistiossa esitetään vaihtelevalla esitystarkkuudella sekä merkittävyydeltään että työmäärältään kovin eritasoisia työkohteita. Vaikka luettelo pyrkiikin olemaan kattava, se ei suinkaan ole täydellinen. Tietotekniikkaan liittyvät kieli- ja kulttuurisidonnaisuudet sopisivat sinänsä kokonaisuudessaan CLDR-päivityksiä varten perustettavan kansallisen lokalisoinnin ohjausryhmän käsittelykohteiksi. Kullekin kohteelle on osoitettava selkeästi vastuullinen taho, tarvittaessa henkilötasolla, sekä tarvittavat resurssit.

Tietoisuuden lisääminen tietoteknisten toteutusten kieli- ja kulttuurisidonnaisuuksista

Tietoisuuden lisäämiseksi tulee tuottaa sekä yleis- että erityisartikkeleita, jotka on suunnattu eri kohderyhmille, niin suurelle yleisölle kuin tietotekniikan ammattikäyttäjille ja eri alojen asiantuntijoille. Tarkoituksena on pyrkiä varmistamaan, että ainakin tärkeimmiksi koetut kysymykset tuodaan esiin, eikä suinkaan valvomaan, mitä käsitellään julkisuudessa.

Suunnitelmissa on käyttää verkkosivuja työskentelyvälineenä jo käynnistetyn CLDR-työn eri vaiheissa. Tätä sivustoa tulisi myös käyttää laajemminkin tiedonvälitykseen.

Osallistuminen Unicoden Common Locale Data Repository (CLDR) -työhön

Kotimaisten kielten tutkimuskeskuksen heinäkuussa 2004 päätetty Unicoden yhteistyöjäsenyys (Liaison) sinänsä edellyttää osallistumista myös yleiseen CLDR-kehitystyöhön, sen kattamien paikallisasetusten sisältömääritysten teon lisäksi. Kun nyt on odotettavissa, että määritykset myös toteutetaan laajalti - jopa vähemmistökielten osalta - ei tätä mahdollisuutta tule jättää käyttämättä hyväksi. - CLDR-projektista löytyy lisätietoja osoitteesta www.unicode.org/cldr/.

Suomen CLDR-projektin käynnistämistä on suuresti edesauttanut osallistuminen syyskuiseen IUC (Internationalization and Unicode Conference) -tapahtumaan. Näihin puolivuosittain järjestettäviin konferensseihin tulisikin osallistua säännöllisesti. Seuraavan teema on “Unicode, Cultural Diversity, and Multilingual Computing“ ja kokouspaikka Berliini (6.-8.4.2005).

Seuraavassa käytetään paikallisasetuksista niiden CLDR-koodinimiä kuten 'suomen kieli', 'suomen kieli Suomessa' jne.

Sisältömäärityksistä on ensimmäiseksi päivitettävä suomen kieltä ja sen käyttöä Suomessa koskevat määritykset , joita on jo entuudestaan tietokannassa. Perusaineistona osalle päivityksistä on tarkoitus käyttää vuonna 1998 laajalla lausuntokierroksella hyväksyttyä ohjetta “Tietojärjestelmissä käytettävät suomen kielen määritykset Suomessa“. Päivitysten on syytä valmistua ennen seuraavan version (1.3) määräaikaa, joka on maaliskuussa 2005. Tähän työhön tarvitaan useiden tahojen yhteistyötä ja menettelyä kansallisen konsensuksen saavuttamiseksi. Tätä menettelyä on tarkoitus soveltaa laajemminkin, lähes kaikkiin työkohteisiin.

Mainittakoon, että määriteltäviksi tulee myös käytäntöjä, joita ei sinänsä suositella käytettäviksi. Niinpä esimerkiksi, vaikka meillä onkin yleisenä suosituksena käyttää 24-tuntista kelloa, tulee rekisteriin kuitenkin määritellä, kuinka aamu- ja iltapäivä-ajat esitetään suomeksi 12-tuntisen kellon mukaan, mikäli sovellus ei anna muuta vaihtoehtoa.

Päivitykset tulee niinikään tehdä ruotsin kielen käyttöä Suomessa koskeviin määrityksiin , joita myös on jo tietokannassa. Tässä kuitenkin on lähtökohtana, että ruotsin kieltä koskevien perusmääritysten oikeellisuudesta vastaa Ruotsi. Asiasta on jo oltu yhteydessä Ruotsin Statskontoretiin ja SIS-standardointijärjestöön.

Saamen kieliä ei tällä hetkellä ole määritelty rekisteriin. Suomessa käytetyistä saamen kielistä pohjoissaame on käytössä myös Norjassa ja Ruotsissa siten, että käyttäjien enemmistö asuu Norjassa. Niinpä sen kieliperusta tulisikin saada Norjasta, jonka jälkeen vasta tulisi määritellä sen käyttö Suomessa . Inarin- ja koltansaamen osalta sekä kieliperustan ( ja ) että sen käytön ( ja ) määrittely kuuluu lähinnä Suomen saamen kielineuvoston vastuulle, joskin saamelainen parlamentaarinen neuvosto voi toimillaan olla avuksi kaikkien saamen kielten kohdalla. Myös Kotuksen saamen kielen huoltajan tulisi osallistua määrittelyyn.

Romanikieltä ei myöskään ole määritelty rekisteriin. Euroopan romanikielen perusmääritysten teko kuuluu oikeastaan Euroopan neuvoston romaniasioita hoitavan yksikön vastuulle. Kieli ei kuitenkaan ole siinä määrin yhdenmukainen, että yhtenäisen kieliperustan määrittely aivan lähiaikoina olisi todennäköistä. Niinpä Suomessa puhuttu romanikieli ja sen käyttö käytännössä jouduttaneen kuvaamaan muutoksina tyhjään kielimäärittelyyn. Määrittelyvastuu on lähinnä romanikielen lautakunnalla.

Vähemmistökielten kohdalla esiintyy usein ongelma sen johdosta, ettei esim. läheskään kaikkia maiden, kielten yms. nimiä ole välttämättä käännetty kullekin kielelle. CLDR-oletusarvona käytetään yleisesti ao. koodia. Vähemmistökielten puhujien niin halutessa voitaisiin päättää, että puuttuvien nimien tilalla käytetään esim. suomenkielisiä nimiä, jotka ovat vähemmistökielen puhujille luultavasti tutumpia kuin koodit.

Osallistuminen kansainväliseen standardointityöhön

Suomesta tulisi osallistua eurooppalaisen CEN-standardointijärjestön tietoyhteiskunnan standardointijärjestelmän kulttuurin monimuotoisuuden ohjausryhmän (CEN/ISSS/CDSG) työhön. Suomesta on tähän osallistuttu käytännössä vain Suomen ulkopuolelta (CEN/TC304) nimettynä edustajana, sellaisenakin viime aikoina erittäin vähäisessä määrin; Tieken SFS:n edustajiksi nimeämät eivät ole osallistuneet työhön lainkaan. Jatko-osallistumisen tarkoituksena on ensin arvioida, onko jatkuva osallistuminen CDSG:n työhön perusteltua.

Suomesta tulisi osallistua (SFS:n kautta) kansainvälisten ISO- ja IEC-standardointijärjestöjen tietotekniikan yhteiskomitean ISO/IEC/JTC1:n työhön. Suomesta ei olla moneen vuoteen osallistuttu tähän käytännössä lainkaan, vaikka JTC1:n ns. virallista standardointitoimintaa ohjaava rooli on hyvin merkittävä. Tässä yhteydessä tulisi myös selvittää, minkä muiden JTC1:n alikomiteoiden kuin jäljempänä esitettyjen työhön Suomesta tulisi kieli- ja kulttuurisidonnaisista syistä (ja muutenkin) osallistua.

Suomesta tulisi osallistua (SFS:n kautta) JTC1/SC2 (Coded Character Sets) -alikomitean merkistöläheiseen työhön. Esimerkkinä Suomelle tällä hetkellä tärkeistä kohteista on suomalais- ugrilainen tarkekirjoitus (UPA), johon tiedetään vielä kohdistuvan joitakin kehitystarpeita. - Merkistöihin liittyen todettakoon, että vaikka näkövammaisten Braille-merkkien pistekuviot esiintyvätkin tietotekniikkatoteutuksia varten koodattuina UCS/Unicode-merkistössä, niiden merkkivastaavuutta ei esitetä tällä tasolla. Niiden kansallinen merkkivastaavuus ja käyttö tulisikin selkiyttää, ja tulos tulisi voida esittää kansainväliselle tietotekniikkateollisuudelle CLDR-tietokannassa.

Suomesta tulisi osallistua (SFS:n kautta) JTC1/SC35 (User Interfaces) -alikomitean käyttöliittymiin kohdistuvaan työhön. SC35:n työkohteisiin kuuluvat mm. näppäimistökaaviot.

Suomessa tulisi seurata ETSIn (European Telecommunications Standards Institute) merkistötyötä ja mahdollisesti tarvittaessa osallistua siihen; osallistujatahot ovat varsinaisesti Viestintävirasto sekä FiCom ja yritykset, kuten Nokia. Esimerkkinä käytännön kohteesta voivat olla tekstiviestit.

Suomessa tulisi seurata EBUn (European Broadcasting Union) ja WBU:n (World Broadcasting Unions) merkistötyötä ja mahdollisesti tarvittaessa osallistua siihen; kansallinen osallistujataho on varsinaisesti Yleisradio. Esimerkkinä käytännön kohteesta voi olla tekstitys, vaikkapa laajalti Page 4 ärtymystä herättäneet kansainvälisten urheilukilpailujen osanottajatiedot.

Suomessa tulisi seurata W3C:n (World Wide Web Consortium) ja IETF:n (Internet Engineering Task Force) sekä ICANNin (Internet Corporation for Assigned Names and Numbers) piirissä tapahtuvaa ns. i18n-työtä (Internationalization) ja mahdollisesti tarvittaessa osallistua siihen.

Suomen tulee osallistua YK:n nimistötyöhön. Tätä on jo kauan tehty varsin ansiokkaasti, mutta tässä työssä ei aina kansainväliselläkään tasolla olla välttämättä päästy varmistumaan siitä, että muualla, esim. merkistöjen osalta tapahtunut kehitys tulisi huomioon otetuksi.

Suomen tulee osallistua (myös kuluttajatason) sähköiseen kaupankäyntiin liittyvään standardointityöhön, jotta yli rajojen tapahtuvassa verkkokaupassa voitaisiin esittää esim. kokomerkintöjen vastaavuudet ja tarvittaessa myös mahdolliset tuoteselosteiden vaatimuserot.

On pidettävä huoli siitä, että EU:n käännöstoiminnan piirissä tapahtuva sanasto- ja käännöstyö nivoutuu riittävässä määrin kotimaisiin hankkeisiin.

Karjalan kieli tulisi mahdollisesti määritellä kansainvälisesti ISO 639-2 -standardissa, jolloin se tulisi myös CLDR-tietokantaan. Se on nyt määritelty mm. Ethnologue-tietokannassa .

Suomen viittomakieli tulisi määritellä kansainvälisesti ISO 639-2:n pohjalta IETF:n RFC 3066:n mukaisesti IANA:n tietokannassa (<sgn-FI> tai mahdollisesti jopa <sgn-FI-fi> ja <sgn-FI-sv>). Se on nyt määritelty mm. Ethnologue-tietokannassa . - Toisaalta, RFC 3066:n korvaava esitys on käsittelyssä.

Kansallinen standardointityö

Tietotekniikkateollisuus on esittänyt toiveenaan, että Suomen vanhentunut näppäimistökaaviota koskeva standardi uusittaisiin. Uuden tulisi olla perusrakenteeltaan laajennukset salliva ja tukea Suomen valtakielten lisäksi ainakin kaikkia perinteisiä Suomen vähemmistökieliä sekä yleisiä EU:n eurooppalaisia kieliä. - Mainittakoon, että erityisesti saamen kielen tukemiseksi määritellyt nykyiset kaaviot ovat lähestymistavaltaan sekä saamen kieliä että suomen kieltä pääkielenään käyttäville rajoittavia. Tämä ei kuitenkaan ole toivottavaa tai edes hyväksyttävää ainakaan suomenkielisille tarkoitetuissa näppäimistöissä.

Suomalainen lajittelustandardi tulisi päivittää kansainvälisiin standardeihin nivoutuvaksi ja erityisesti tietokonekäyttöön soveltuvaksi. Tavoitteena on, että minkä tahansa tietojoukon lajittelujärjestys olisi tietoelementtien alkuperäisestä järjestyksestä riippumaton. Niinpä muun tiedon puuttuessa tulisi kaikkiin merkkeihin oletusarvona soveltaa koko UCS/Unicode-merkistöä koskevia sääntöjä. Sen yleiseurooppalaisissa sovelluksissa käytettäväksi tarkoitettuun osajoukkoon (nk. MES-2) tulisi kuitenkin soveltaa tälle Euroopan tasolla sovittuja sääntöjä, elleivät ne kuulu kansallis(t)en lajittelustandardi(e)n piiriin. Kansallisen standardin merkkeihin tulisi puolestaan soveltaa niitä koskevia sääntöjä, kuitenkin niin, että vähemmistökielten omille merkkivalikoimille voidaan haluttaessa vielä määritellä niitä koskevat säännöt. Lajittelu sinänsä on monivaiheinen toiminta, mutta edellä kuvattu rakenne ei lisää sen kompleksisuutta, koska oikein nivoutettuna eri lähteistä saadut säännöt esiintyvät saman tasoisina, vailla alkuperäistä hierarkkisuuttaan.

Suomalaisten toimistostandardien päivitys on kesken ja se tulisi saattaa loppuun. Tästä saatuja kokemuksia voidaan käyttää myös CLDR-rekisterin kehitystyössä. Tulisi myös huolehtia siitä, etteivät mitkään määritykset ole ristiriidassa CLDR-tietokantaan rekisteröitävien arvojen kanssa.

Standardointiläheinen työ

SC2-merkistötyöhön liittyy Helsingin yliopiston yleisen kielitieteen laitoksen verkkosivuilla alkuvuodesta 2004 julkaistun eurooppalaisen merkistön merkkien suomenkielisten nimien luettelon laajennus kattamaan ainakin ne kansainvälisen foneettisen aakkoston (IPA) ja suomalais-ugrilaisen tarkekirjoituksen (UPA) merkit, joita tarvitaan Suomessa tehtävässä kielentutkimuksessa.

UPAn osalta on myös erityisen tärkeää saattaa se laajaan sovelluskäyttöön, joka edellyttää kattavaa ohjeistusta. Se myös edellyttää toimivaa, erikoistunutta näppäimistökaaviota, jonka määrittelypohjan selvittämiseksi on mm. anottu apurahaa Suomen tiedekustantajien liitolta.

Suomalaiset translitterointi- ja transkribointikäytännöt tulisi selvittää ja mahdollisesti tarkistaa. Niihin kohdistuvat käytännön sovellusohjeet tulisi antaa sekä yksikielisiä että monikielisiä ympäristöjä varten. Tällöin on mm. otettava huomioon matkustusasiakirjoissa myöntäjämaassa (esim. Venäjän federaatiossa) toteutettu translitterointi.

Suomen kielen osalta on tehty monella taholla paljonkin hyvää työtä sekä sen tavutussääntöjen että sen oikolukualgoritmien ja yleensäkin kielentarkistuksen määrittelemiseksi. Käytännön toteutusten tasosta voi kuitenkin päätellä, ettei näistä ole laajaa kansallista yhteisymmärrystä, joten näistä tulisi herättää ainakin keskustelua. Suomen kielen taivutusmuotojen runsaus myös aiheuttaa usein suuria vaikeuksia hakukoneiden käytössä, joten niistäkin tulisi pyrkiä määrittelemään vaatimuksia tietoteknisille toteutuksille.

Kotimaista tietotekniikkaan ja muihin erityisalojen sanastoihin keskittyvää työtä tulisi edistää.

Suomen vähemmistökielissä käytettyjen merkkien syöttö- ja tulostusnäkökohdat tulisi esittää käyttäjäläheisesti sekä yleisesti että kunkin kielen osalta erikseen.

Viranomaiskäytännöt

Väestörekisterin ja muiden julkisten rekisterien käyttämän merkistön teknisesti vanhentuneet rajoitukset tulisi poistaa. Nykyisellään osa jopa Suomen kansalaisista joutuu kirjoittamaan nimensä väärin virallisissa yhteyksissä. - Tähän liittyy tavallaan, joskin aivan omana kysymyksenään, myös suomalaisten passien koneluettavan, nimestä johdetun koodin toteutus.

Kansallisten merkkien käyttö tulisi sallia myös Suomen kansallisen fi-juuren alla käytettävissä verkkotunnuksissa. Tästä on ICANN jo kesäkuussa 2003 antanut sovellettavat ohjeet, joita meillä ei vieläkään ole toteutettu. Näin on kuitenkin tehty jo mm. suuressa osassa EU-maita kansallisten pääkielten ja sekä kansallisten että myös muiden vähemmistökielten merkkien osalta. Suomessakin kansallisia merkkejä voidaan käyttää verkkotunnuksissa useiden kansainvälisten pääjuurien (mm. com ja net) alla. - Kansainvälisellä tasolla on edelleen työn alla yleismenettely kansallisten merkkien käytöstä laajemminkin verkkoresursseihin viitattaessa.

Kansallisten viranomaisten tulisi toteuttaa suomenkielinen palvelunsa siten, ettei siihen vaadita jonkin vieraan kielen ymmärtämistä. Näin ei suinkaan aina ole laita, esim. Viestintäviraston suomenkielisten tietoturvapalvelujen käyttämässä englanninkielisessä listapalvelinohjelmistossa. Siitä annettu ohjeistus voi johtaa kielitaidottoman käyttäjän pahastikin hakoteille.

EU:n osalta on ilmeistä tarvetta yhteistyöhön, jotta suomen kielen käytännöt otettaisiin kattavasti huomioon EU:n asiakirjoissa ja myös yleisölle tarkoitetuilla verkkosivuilla.

Helsingissä 3.11.2004

Toimekseen saaneena

Erkki I. Kolehmainen

Topic revision: r2 - 2008-11-25 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback