Difference: OFiTwol (6 vs. 7)

Revision 72012-02-25 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 6 to 6
 Lingvisti tuntee taulukkolaskimen ja se on hänelle käyttökelpoinen työkalu. Taulukon voi tulostaa pilkkujen erottamassa CSV-muodossa, jota on helppo käsitellä Python-skriptien ja CSV-kirjaston avulla. Ylläpito ja kehitystyö voisi toimia seuraavan kaavion mukaan, jossa laatikon mallisia osia voitaisiin käsin päivittää ja soikion malliset syntyisivät mekaanisesti:

Changed:
<
<
digraph finite_state_machine { rankdir=LR;
>
>
digraph TrafficLights { # rankdir=LR;
  size="8,5" subgraph clust { SymbolCSV [ shape=box ]; FeatureCSV [ shape=box ]; AffixCSV [ shape=box ]; # SymbolCSV -> AffixCSV ;
Changed:
<
<
FeatureCSV -> AffixCSV ;
>
>
FeatureCSV -> RuleTwolc ;
 } WordsCSV [ shape=box ]; Rules [ shape=box ];
Line: 33 to 33
 }
Changed:
<
<

Symbolien taulukko

>
>

Symbolien ja piirteiden taulukot

 
Changed:
<
<
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja). Kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics) esitetään erillisessä taulukossa FeatureCSV. Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolitaulukosta on oma erillinen sivunsa.
>
>
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja). Kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics) esitetään erillisessä taulukossa FeatureCSV. Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolien ja piirteiden taulukoista on oma erillinen sivunsa.
 

Säännöstö

Line: 53 to 53
  -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330166067" name="DirectedGraphPlugin_1.png" size="5425" stream="GLOB(0x99d2b20)" tmpFilename="/opt/twiki/working/tmp/DGPpnmVDD5JZa.png" user="KimmoKoskenniemi" version="23"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330169904" name="DirectedGraphPlugin_1.png" size="7235" stream="GLOB(0xab0bb10)" tmpFilename="/opt/twiki/working/tmp/DGPLuyGRChQRO.png" user="KimmoKoskenniemi" version="26"
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback