Avoimen lähdekoodin kaksitasokielioppikääntäjä (pro gradu -suunnitelma)

Esisuunnitelma

Gradun otsikoksi ehdottaisin tuota yllä olevaa pääotsikkoa. Tuo "avoimen lähdekoodin" viittaa siihen, että tutkielmassa pohditaan sitä, mitä avoin lähdekoodi pitää sisällään. En tiedä paljonkaan lisensseistä yms. mutta siihen olisi varmaan syytä tutustua.

Pääasiassa graduni tulisi käsittelemään kaksitasokielioppikääntäjän rakentamista, mikä pitää sisällään

  • kaksitasomallin esittelyn (Koskenniemi 1983)
    • leksikaalinen komponentti (hfst-lexc)
    • fonologinen komponentti (hfst-twolc)
  • katsauksen kaksitasosääntöjen ja -kielioppien historiaan (Koskenniemi 1983, ...).
  • lyhyen selvityksen siitä, millaisia (kaikille avoimia) mahdollisuuksia kaksitasokielioppien kääntämiseen on ollut olemassa aiemmin (Xeroxin twolc, PC-KIMMO, SFST, ...).
  • lyhyen selostuksen kakstasosääntöformalismista eli säännöllisistä lausekkeista ja erilaisista sääntötyypeistä (Koskenniemi 1983, Karttunen & Koskenniemi 1987).
  • yksittäisten sääntöjen käntämisen (Koskenniemi 1983, Koskenniemi & Yli-Jyrä 2006).
    • Käytetyt käännöskaavat (millä tavalla käytetyt käännöskaavat eroavat aiemmin käytetyistä ja miten tämä vaikuttaa käännösprosessiin).
    • Monikontekstisten sääntöjen kääntämisen.
    • Kääntämisen aikavaativuuspohdiskeluja.
  • sääntöjen konfliktiresoluution (tästä syystä hfst-twolc:tä voi kutsua kielioppikääntäjäksi, eikä vain sääntökääntäjäksi) (pääasiallinen lähde on vielä hakusessa)
    • Miten käytetyt käännöskaavat vaikuttavat konflktiresoluutioon (Koskenniemi & Yli-Jyrä 2006)?
  • Keinon yhdistää hfst-lexc:llä rakennettu leksikko ja hfst-twolc:llä rakennettu kielioppi (Karttunen 1994).
    • Mikä on leikkaava kompositio ja miksi sitä tarvitaan.
    • Leikkaavan komposition toteuttaminen.

Lisäksi ajattelin jonkin verran käsitellä hfst-twolc:stä puuttuvia ominaisuuksia, joita siihen ehkä tulevaisuudessa on tulossa

  • Säännöt, joiden keskus on monimutkaisempi kuin pelkkä merkkiparien joukko (Yli-Jyrä 200X). Käytännössä pitänee rajoittaa tarkastelu tapaukseen, jossa keskus on merkkiparijonojen joukko.
    • Mitä monimutkaisemmat keskukset tarkoittavat konfliktiresoluution kannalta?
    • Erilaisia tapoja kääntää tällaiset säännöt (hajotaminen osiin, kääntäminen sellaisenaan).
  • Painojen lisääminen kaksitasosääntöihin (Yli-Jyrä 200X).
    • Mitä painollinen kaksitasosääntö tarkoittaa?
    • Voisiko painollisuus olla tapa hoitaa konfliktiresoluutiota?
    • Miten leikkaavaa kompositiota pitää muuttaa, jotta se selviää painollisuudesta.
Lähteitä:

Pääasiallinen lähdeteos, jota aion käyttää on Koskenniemi 1983. Se ja muita mieleen tulleita lähteitä on alla.

  • K. Koskenniemi, Two-level Morphology: A General Computational Model for Word-Form Recognition and Production, 1983.
  • L. Karttunen, K. Koskenniemi, R. Kaplan, A Compiler for Two-level phonological rules, CSLI, 1987, http://www2.parc.com/istl/members/karttune/publications/archive/twolcomp.pdf
  • A. Yli-Jyrä, K. Koskenniemi, Compiling Generalized Two-Level Rules and Grammars, Advances in Natural Language Processing, Springer Berlin/Heidelberg, pages 174-185, 2006
  • L. Karttunen, R. Kaplan, A. Zaenen, Two-Level Morphology with Composition, Coling 92, Proceedings of the 14 The International Conference on Computational Linguistics, sivut 141-148, 1992.
  • L. Karttunen, Constructing Lexical Transducers, Coling 94. The 15th International Conference on Computational Liguistics. Proceedings, sivut 406-411. August 5-9, 1994. Kyoto, Japan.
  • L. Karttunen, Word Play, Computational Linguistics 33(4) sivut 443-467, 2007, ACL.
  • R. Kaplan, M. Kay, Regular Models of Phonological Rule Systems, Computational Linguistics 20(3) sivut 331-378, 1994, ACL.

Lisäksi muita tähän tarkoitukseen soveltuvia Yli-Jyrän kirjoittamia artikkeleita.

Rajauskeskustelu ohjaajan kanssa

Varsinainen gradusuunnitelma

Gradun ensimmäinen esitys

Kieliteknologian seminaarissa pidetyn ensimmäisen esitelmän hfst-twolc.pdf kalvot (lähde gradu.tex käyttää prosper-luokkaa).

Suunnitelmapalaveri

Allekirjoitukset:

__________________________            __________________________    
    Kimmo Koskenniemi                     Miikka Silfverberg
-- MiikkaSilfverberg - 24 Sep 2008
Topic attachments
I Attachment Action Size Date Who Comment
Unknown file formattex gradu.tex manage 10.2 K 2008-11-04 - 07:09 UnknownUser  
PDFpdf hfst-twolc.pdf manage 191.6 K 2008-11-03 - 11:48 UnknownUser  
PDFpdf pro_gradu_twolc.pdf manage 400.6 K 2009-05-02 - 03:10 UnknownUser  
Topic revision: r4 - 2009-05-02 - MiikkaSilfverberg
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback