Difference: OFiTwol (1 vs. 10)

Revision 102013-09-17 - TWikiGuest

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 57 to 57
 -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330244709" name="DirectedGraphPlugin_1.png" size="5332" stream="GLOB(0x9fe6b18)" tmpFilename="/opt/twiki/working/tmp/DGPscgzWw6EXY.png" user="KimmoKoskenniemi" version="33"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1379456616" name="DirectedGraphPlugin_1.png" size="40139" user="BaseUserMapping_666" version="34"

Revision 92012-02-26 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 9 to 9
 digraph OFiTwol { rankdir=LR; size="8,5"
Added:
>
>
NSL [ shape=box, color=white ];
  WordsCSV [ shape=box ]; Rules [ shape=box ]; subgraph cluster_1 { rank=same ; color=white ;
Line: 33 to 34
 }
Added:
>
>
Jäsennintä ylläpidettäessä ja täydennettäessä päivitetään yleensä vain sanastoa (WordsCSV). Jäsentimen rakentamisen alkuvaiheessa laaditaan symboleja, piirteitä, affikseja ja sääntöjä koskevat tiedostot ja viritellään ne toimiviksi. Työn edetessä ne toimivat lähinnä dokumentaationa, josta voi tarkistaa symbolien, piirteiden ja esim. taivutusluokkien käyttöä ja määritelmiä.
 

Symbolien ja piirteiden taulukot

Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja). Kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics) esitetään erillisessä taulukossa FeatureCSV. Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolien ja piirteiden taulukoista on oma erillinen sivunsa.

Line: 54 to 57
 -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330196967" name="DirectedGraphPlugin_1.png" size="5423" stream="GLOB(0xae683d8)" tmpFilename="/opt/twiki/working/tmp/DGPKdQKa3E9P5.png" user="KimmoKoskenniemi" version="32"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330244709" name="DirectedGraphPlugin_1.png" size="5332" stream="GLOB(0x9fe6b18)" tmpFilename="/opt/twiki/working/tmp/DGPscgzWw6EXY.png" user="KimmoKoskenniemi" version="33"

Revision 82012-02-25 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 6 to 6
 Lingvisti tuntee taulukkolaskimen ja se on hänelle käyttökelpoinen työkalu. Taulukon voi tulostaa pilkkujen erottamassa CSV-muodossa, jota on helppo käsitellä Python-skriptien ja CSV-kirjaston avulla. Ylläpito ja kehitystyö voisi toimia seuraavan kaavion mukaan, jossa laatikon mallisia osia voitaisiin käsin päivittää ja soikion malliset syntyisivät mekaanisesti:

Changed:
<
<
digraph TrafficLights { # rankdir=LR;
>
>
digraph OFiTwol { rankdir=LR;
  size="8,5"
Changed:
<
<
subgraph clust { SymbolCSV [ shape=box ]; FeatureCSV [ shape=box ];
>
>
WordsCSV [ shape=box ]; Rules [ shape=box ]; subgraph cluster_1 { rank=same ; color=white ;
  AffixCSV [ shape=box ];
Added:
>
>
FeatureCSV [ shape=box ]; SymbolCSV [ shape=box ];
 # SymbolCSV -> AffixCSV ; FeatureCSV -> RuleTwolc ; }
Changed:
<
<
WordsCSV [ shape=box ]; Rules [ shape=box ]; NSL -> WordsCSV [ label="py" ]; WordsCSV -> WordsCSV [ label="edit" ]; WordsCSV -> Lexicon [ label="py" ]; SymbolCSV -> Lexicon [ label="py" ]; SymbolCSV -> RuleTwolc [ label="py" ]; AffixCSV -> Lexicon [ label="py" ]; FeatureCSV -> Lexicon [ label="py" ]; Rules -> RuleTwolc [ label="py" ]; Lexicon -> LexcFST [ label="hfst-lexc" ]; RuleTwolc -> RuleFST [ label="hfst-twolc" ];
>
>
NSL -> WordsCSV ; WordsCSV -> WordsCSV ; WordsCSV -> Lexicon ; SymbolCSV -> Lexicon ; SymbolCSV -> RuleTwolc ; AffixCSV -> Lexicon ; FeatureCSV -> Lexicon ; Rules -> RuleTwolc ; Lexicon -> LexcFST [ label="Lexc" ]; RuleTwolc -> RuleFST [ label="Twolc" ];
  LexcFST -> OFiTwolFST; RuleFST -> OFiTwolFST; }
Line: 53 to 53
  -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330169904" name="DirectedGraphPlugin_1.png" size="7235" stream="GLOB(0xab0bb10)" tmpFilename="/opt/twiki/working/tmp/DGPLuyGRChQRO.png" user="KimmoKoskenniemi" version="26"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330196967" name="DirectedGraphPlugin_1.png" size="5423" stream="GLOB(0xae683d8)" tmpFilename="/opt/twiki/working/tmp/DGPKdQKa3E9P5.png" user="KimmoKoskenniemi" version="32"

Revision 72012-02-25 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 6 to 6
 Lingvisti tuntee taulukkolaskimen ja se on hänelle käyttökelpoinen työkalu. Taulukon voi tulostaa pilkkujen erottamassa CSV-muodossa, jota on helppo käsitellä Python-skriptien ja CSV-kirjaston avulla. Ylläpito ja kehitystyö voisi toimia seuraavan kaavion mukaan, jossa laatikon mallisia osia voitaisiin käsin päivittää ja soikion malliset syntyisivät mekaanisesti:

Changed:
<
<
digraph finite_state_machine { rankdir=LR;
>
>
digraph TrafficLights { # rankdir=LR;
  size="8,5" subgraph clust { SymbolCSV [ shape=box ]; FeatureCSV [ shape=box ]; AffixCSV [ shape=box ]; # SymbolCSV -> AffixCSV ;
Changed:
<
<
FeatureCSV -> AffixCSV ;
>
>
FeatureCSV -> RuleTwolc ;
 } WordsCSV [ shape=box ]; Rules [ shape=box ];
Line: 33 to 33
 }
Changed:
<
<

Symbolien taulukko

>
>

Symbolien ja piirteiden taulukot

 
Changed:
<
<
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja). Kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics) esitetään erillisessä taulukossa FeatureCSV. Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolitaulukosta on oma erillinen sivunsa.
>
>
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja). Kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics) esitetään erillisessä taulukossa FeatureCSV. Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolien ja piirteiden taulukoista on oma erillinen sivunsa.
 

Säännöstö

Line: 53 to 53
  -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330166067" name="DirectedGraphPlugin_1.png" size="5425" stream="GLOB(0x99d2b20)" tmpFilename="/opt/twiki/working/tmp/DGPpnmVDD5JZa.png" user="KimmoKoskenniemi" version="23"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330169904" name="DirectedGraphPlugin_1.png" size="7235" stream="GLOB(0xab0bb10)" tmpFilename="/opt/twiki/working/tmp/DGPLuyGRChQRO.png" user="KimmoKoskenniemi" version="26"

Revision 62012-02-25 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 9 to 9
 digraph finite_state_machine { rankdir=LR; size="8,5"
Changed:
<
<
WordsCSV [ shape=box ];
>
>
subgraph clust {
  SymbolCSV [ shape=box ];
Changed:
<
<
Rules [ shape=box ];
>
>
FeatureCSV [ shape=box ];
  AffixCSV [ shape=box ];
Added:
>
>
# SymbolCSV -> AffixCSV ; FeatureCSV -> AffixCSV ; } WordsCSV [ shape=box ]; Rules [ shape=box ];
  NSL -> WordsCSV [ label="py" ]; WordsCSV -> WordsCSV [ label="edit" ]; WordsCSV -> Lexicon [ label="py" ];
Deleted:
<
<
AffixCSV -> Lexicon [ label="py" ];
  SymbolCSV -> Lexicon [ label="py" ]; SymbolCSV -> RuleTwolc [ label="py" ];
Added:
>
>
AffixCSV -> Lexicon [ label="py" ]; FeatureCSV -> Lexicon [ label="py" ];
  Rules -> RuleTwolc [ label="py" ]; Lexicon -> LexcFST [ label="hfst-lexc" ]; RuleTwolc -> RuleFST [ label="hfst-twolc" ];
Line: 29 to 35
 

Symbolien taulukko

Changed:
<
<
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja), kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics). Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolitaulukosta on oma erillinen sivunsa.
>
>
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja). Kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics) esitetään erillisessä taulukossa FeatureCSV. Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolitaulukosta on oma erillinen sivunsa.
 

Säännöstö

Line: 47 to 53
  -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1328432218" name="DirectedGraphPlugin_1.png" size="5196" stream="GLOB(0xaf83e4c)" tmpFilename="/opt/twiki/working/tmp/DGPJp3K3m7MOv.png" user="KimmoKoskenniemi" version="18"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1330166067" name="DirectedGraphPlugin_1.png" size="5425" stream="GLOB(0x99d2b20)" tmpFilename="/opt/twiki/working/tmp/DGPpnmVDD5JZa.png" user="KimmoKoskenniemi" version="23"

Revision 52012-02-05 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 29 to 29
 

Symbolien taulukko

Changed:
<
<
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja), kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics). Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan.
>
>
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja), kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics). Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan. Symbolitaulukosta on oma erillinen sivunsa.
 

Säännöstö

Line: 37 to 37
 

Affiksien ja morfotaksin taulukko

Changed:
<
<
Päätteiden ja johdinten kombinoinnin vartaloihin voisi hoitaa kokonaan LEXC:n formalismilla, mutta toisaalta LEXC ei salli kovin mukavaa keinoa antaa samalle leksikkomerkinnälle monta jatkoleksikkoa. Ylläpitämällä affiksileksikkoa erillisenä taulukkona AffixCSV, voidaan saada kaupanpäälliseksi joustavuutta. Samasta affiksitaulukosta voi tehdä erilaisia jäsentimiä kombinoimalla kenttiä eri järjestyksiin tai ottamalla mukaan vain osa niistä.
>
>
Päätteiden ja johdinten kombinoinnin vartaloihin voisi hoitaa kokonaan LEXC:n formalismilla, mutta toisaalta LEXC ei salli kovin mukavaa keinoa antaa samalle leksikkomerkinnälle monta jatkoleksikkoa. Tällainen mahdollisuus on helposti järjestettävissä sillä Python-skriptillä, jolla CSV-taulukko muunnetaan LEXC:n muotoon. Ylläpitämällä affiksileksikkoa erillisenä taulukkona AffixCSV, voidaan saada kaupanpäälliseksi joustavuutta. Samasta affiksitaulukosta voi tehdä erilaisia jäsentimiä kombinoimalla kenttiä eri järjestyksiin tai ottamalla mukaan vain osa niistä. Affiksitaulukosta on oma erillinen sivunsa.
 

Sanaston taulukko

Lähtökohtana on Kotimaisten kielten keskuksen Nykysuomen sanalista (NSL), mutta siinä on erinäisiä pieniä puutteita ja hankalia käytäntöjä, joiden takia voi olla parempi muuntaa siitä CSV-muotoinen versio LexiconCSV, jota lingvisti ylläpitää. Siihen lisättäisiin uusia hakusanoja tarpeen mukaan ja entisiin tehtäisiin mahdollisia korjauksia.

Changed:
<
<
Sanastotaulukko voisi myös sisältää kenttiä hakusanojen morfosyntaktisille piirteille, mutta niiden saaminen oikeaan kohtaan morfologisen jäsentimen tuloksessa voi olla hankalaa suoraan samalla LEXC-leksikolla, jolla sananmuotojen tunnistus tapahtuu. Taulukkoon talletettuja tietoja voi toki saada mukaan jäsennykseen suoraviivaisesti tekemällä siitä oma vaihe (jonka voi toteuttaa LEXC:n avulla tai vaikkapa Python-ohjelmana).
>
>
Sanastotaulukko voisi myös sisältää kenttiä hakusanojen morfosyntaktisille piirteille, mutta niiden saaminen oikeaan kohtaan morfologisen jäsentimen tuloksessa voi olla hankalaa suoraan samalla LEXC-leksikolla, jolla sananmuotojen tunnistus tapahtuu. Taulukkoon talletettuja tietoja voi toki saada mukaan jäsennykseen suoraviivaisesti tekemällä siitä oma vaihe (jonka voi toteuttaa LEXC:n avulla tai vaikkapa Python-ohjelmana). Sanastotaulukosta on oma erillinen sivunsa.
  -- KimmoKoskenniemi - 2012-02-04

Revision 42012-02-05 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Changed:
<
<
Lingvisti tuntee taulukkolaskimen ja se on hänelle käyttökelpoinen työkalu. Taulukon voi tulostaa pilkkujen erottamassa CSV-muodossa, jota on helppo käsitellä Python-skriptien avulla CSV-kirjaston avulla. Ylläpito ja kehitystyö voisi toimia seuraavan kaavion mukaan:
>
>
Lingvisti tuntee taulukkolaskimen ja se on hänelle käyttökelpoinen työkalu. Taulukon voi tulostaa pilkkujen erottamassa CSV-muodossa, jota on helppo käsitellä Python-skriptien ja CSV-kirjaston avulla. Ylläpito ja kehitystyö voisi toimia seuraavan kaavion mukaan, jossa laatikon mallisia osia voitaisiin käsin päivittää ja soikion malliset syntyisivät mekaanisesti:
  digraph finite_state_machine {
Line: 29 to 29
 

Symbolien taulukko

Changed:
<
<
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja), kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics). Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa. Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan.
>
>
Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja), kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics). Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi ja tällainen taulukko tarjoaisi siihen hyvät puitteet. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa (ja symbolilista voidaan viedä taulukosta mekaanisesti säännöstöön ja leksikkoon). Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan.
 

Säännöstö

Changed:
<
<
Sääntöjä muutetaan harvemmin ja ne kirjoitetaan TWOLC:n muodossa. Sääntöjen aakkostoon pitää lisätä morfosyntaktiset piirteet. Niitä ei tarvittaisi äännevaihteluissa, mutta perusmuotojen generoinnissa niiden pitää olla mukana. Morfofoneemit voisi myös olla hyvä kuljettaa mekaanisesti symbolien taulukosta säännöstön aakkostoon.
>
>
Sääntöjä muutetaan harvemmin ja ne kirjoitetaan TWOLC:n muodossa. Sääntöjen aakkostoon pitää lisätä morfosyntaktiset piirteet. Niitä ei tarvittaisi äännevaihteluissa, mutta perusmuotojen generoinnissa niiden pitää olla mukana. Morfofoneemit voisi myös olla hyvä hakea mekaanisesti symbolien taulukosta säännöstön aakkostoon.
 

Affiksien ja morfotaksin taulukko

Line: 41 to 41
 

Sanaston taulukko

Changed:
<
<
Lähtökohtana on Kotimaisten kielten keskuksen Nykysuomen sanalista (NSL), mutta siinä on erinäisiä pieniä puutteita ja hankalia käytäntöjä, joiden takia voi olla parempi muuntaa siitä CSV-muotoinen versio LexiconCSV, jota lingvisti ylläpitää lisäämällä siihen uusia hakusanoja tarpeen mukaan.
>
>
Lähtökohtana on Kotimaisten kielten keskuksen Nykysuomen sanalista (NSL), mutta siinä on erinäisiä pieniä puutteita ja hankalia käytäntöjä, joiden takia voi olla parempi muuntaa siitä CSV-muotoinen versio LexiconCSV, jota lingvisti ylläpitää. Siihen lisättäisiin uusia hakusanoja tarpeen mukaan ja entisiin tehtäisiin mahdollisia korjauksia.
  Sanastotaulukko voisi myös sisältää kenttiä hakusanojen morfosyntaktisille piirteille, mutta niiden saaminen oikeaan kohtaan morfologisen jäsentimen tuloksessa voi olla hankalaa suoraan samalla LEXC-leksikolla, jolla sananmuotojen tunnistus tapahtuu. Taulukkoon talletettuja tietoja voi toki saada mukaan jäsennykseen suoraviivaisesti tekemällä siitä oma vaihe (jonka voi toteuttaa LEXC:n avulla tai vaikkapa Python-ohjelmana).

Revision 32012-02-05 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Line: 33 to 33
 

Säännöstö

Changed:
<
<
Sääntöjä muutetaan harvemmin ja ne kirjoitetaan TWOLC:n muodossa.
>
>
Sääntöjä muutetaan harvemmin ja ne kirjoitetaan TWOLC:n muodossa. Sääntöjen aakkostoon pitää lisätä morfosyntaktiset piirteet. Niitä ei tarvittaisi äännevaihteluissa, mutta perusmuotojen generoinnissa niiden pitää olla mukana. Morfofoneemit voisi myös olla hyvä kuljettaa mekaanisesti symbolien taulukosta säännöstön aakkostoon.
 
Changed:
<
<

Affiksit ja morfotaksi

>
>

Affiksien ja morfotaksin taulukko

 
Added:
>
>
Päätteiden ja johdinten kombinoinnin vartaloihin voisi hoitaa kokonaan LEXC:n formalismilla, mutta toisaalta LEXC ei salli kovin mukavaa keinoa antaa samalle leksikkomerkinnälle monta jatkoleksikkoa. Ylläpitämällä affiksileksikkoa erillisenä taulukkona AffixCSV, voidaan saada kaupanpäälliseksi joustavuutta. Samasta affiksitaulukosta voi tehdä erilaisia jäsentimiä kombinoimalla kenttiä eri järjestyksiin tai ottamalla mukaan vain osa niistä.
 
Added:
>
>

Sanaston taulukko

Lähtökohtana on Kotimaisten kielten keskuksen Nykysuomen sanalista (NSL), mutta siinä on erinäisiä pieniä puutteita ja hankalia käytäntöjä, joiden takia voi olla parempi muuntaa siitä CSV-muotoinen versio LexiconCSV, jota lingvisti ylläpitää lisäämällä siihen uusia hakusanoja tarpeen mukaan.

Sanastotaulukko voisi myös sisältää kenttiä hakusanojen morfosyntaktisille piirteille, mutta niiden saaminen oikeaan kohtaan morfologisen jäsentimen tuloksessa voi olla hankalaa suoraan samalla LEXC-leksikolla, jolla sananmuotojen tunnistus tapahtuu. Taulukkoon talletettuja tietoja voi toki saada mukaan jäsennykseen suoraviivaisesti tekemällä siitä oma vaihe (jonka voi toteuttaa LEXC:n avulla tai vaikkapa Python-ohjelmana).

  -- KimmoKoskenniemi - 2012-02-04

Revision 22012-02-05 - KimmoKoskenniemi

Line: 1 to 1
 

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Changed:
<
<
Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoita muunneltavuudesta ja joustavuudesta.
>
>
Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoite muunneltavuudesta ja joustavuudesta.

Lingvisti tuntee taulukkolaskimen ja se on hänelle käyttökelpoinen työkalu. Taulukon voi tulostaa pilkkujen erottamassa CSV-muodossa, jota on helppo käsitellä Python-skriptien avulla CSV-kirjaston avulla. Ylläpito ja kehitystyö voisi toimia seuraavan kaavion mukaan:

  digraph finite_state_machine {
Changed:
<
<
# rankdir=LR;
>
>
rankdir=LR;
  size="8,5"
Added:
>
>
WordsCSV [ shape=box ]; SymbolCSV [ shape=box ]; Rules [ shape=box ]; AffixCSV [ shape=box ];
  NSL -> WordsCSV [ label="py" ]; WordsCSV -> WordsCSV [ label="edit" ]; WordsCSV -> Lexicon [ label="py" ]; AffixCSV -> Lexicon [ label="py" ];
Changed:
<
<
SymbolList -> Multichar [ label="py" ]; SymbolList -> AnalRules [ label="py" ]; SymbolList -> GenRules [ label="py" ]; Multichar -> Lexicon [ label="py" ]; Rules -> AnalRules [ label="py" ]; Rules -> GenRules [ label="py" ];
>
>
SymbolCSV -> Lexicon [ label="py" ]; SymbolCSV -> RuleTwolc [ label="py" ]; Rules -> RuleTwolc [ label="py" ];
  Lexicon -> LexcFST [ label="hfst-lexc" ];
Changed:
<
<
AnalRules -> AnalRulFST [ label="hfst-twolc" ]; GenRules -> GenRulFST [ label="hfst-twolc" ];
>
>
RuleTwolc -> RuleFST [ label="hfst-twolc" ];
  LexcFST -> OFiTwolFST;
Changed:
<
<
AnalRulFST -> OFiTwolFST; GenRulFST -> OFiTwolFST;
>
>
RuleFST -> OFiTwolFST;
 }
Added:
>
>

Symbolien taulukko

Merkistön dokumentointia varten olisi oma taulukko SymbolCSV, jossa määritellään ainakin kaikki äännevaihteluita kuvaavat morfofoneemit ja rajasymbolit (jotka voivat olla useammasta merkistä koostuvia symboleja), kieliopillisia kategorioita kuvaavat morfosyntaktiset piirteet sekä morfologista kombinatoriikkaa ohjaavat yhdistelypiirteet (flag diacritics). Merkistö on usein sen verran moninainen ja sisältää paljon päätöksiä käytännöistä, että se kannattanee dokumentoida selkeästi. Samoja symboleja (samoilla määritelmillä) tulisi käyttää sekä säännöstössä että leksikossa. Symbolien taulukkoon voi mukavasti sijoittaa esimerkkejä ja vastaesimerkkejä ainakin morfofoneemien käytöstä. Esimerkit toimivat lingvistin tukena mutta ne voidaan myös poimia mekaanisesti sieltä ja testata säännöstöä vastaan.

Säännöstö

Sääntöjä muutetaan harvemmin ja ne kirjoitetaan TWOLC:n muodossa.

Affiksit ja morfotaksi

  -- KimmoKoskenniemi - 2012-02-04
Changed:
<
<
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1328374779" name="DirectedGraphPlugin_1.png" size="9597" stream="GLOB(0x9835fec)" tmpFilename="/opt/twiki/working/tmp/DGPsiyvt0Hpvn.png" user="KimmoKoskenniemi" version="11"
>
>
META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1328432218" name="DirectedGraphPlugin_1.png" size="5196" stream="GLOB(0xaf83e4c)" tmpFilename="/opt/twiki/working/tmp/DGPJp3K3m7MOv.png" user="KimmoKoskenniemi" version="18"

Revision 12012-02-04 - KimmoKoskenniemi

Line: 1 to 1
Added:
>
>

OFiTwol: Avoimen lähdekoodin morfologinen jäsennin suomen kielelle

Tämän hankkeen tavoitteena on laatia kohtuullisen helposti ylläpidettävä suomen kielen morfologinen jäsennin, jonka mallin mukaan lingvistit voisivat ylläpitää ja kehittää muidenkin kielten morfologisia jäsentimiä. Ylläpidettävyyteen sisältyy myös tavoita muunneltavuudesta ja joustavuudesta.

digraph finite_state_machine { # rankdir=LR; size="8,5" NSL -> WordsCSV [ label="py" ]; WordsCSV -> WordsCSV [ label="edit" ]; WordsCSV -> Lexicon [ label="py" ]; AffixCSV -> Lexicon [ label="py" ]; SymbolList -> Multichar [ label="py" ]; SymbolList -> AnalRules [ label="py" ]; SymbolList -> GenRules [ label="py" ]; Multichar -> Lexicon [ label="py" ]; Rules -> AnalRules [ label="py" ]; Rules -> GenRules [ label="py" ]; Lexicon -> LexcFST [ label="hfst-lexc" ]; AnalRules -> AnalRulFST [ label="hfst-twolc" ]; GenRules -> GenRulFST [ label="hfst-twolc" ]; LexcFST -> OFiTwolFST; AnalRulFST -> OFiTwolFST; GenRulFST -> OFiTwolFST; }

-- KimmoKoskenniemi - 2012-02-04

META FILEATTACHMENT attachment="DirectedGraphPlugin_1.png" attr="h" comment="DirectedGraphPlugin: DOT graph" date="1328374779" name="DirectedGraphPlugin_1.png" size="9597" stream="GLOB(0x9835fec)" tmpFilename="/opt/twiki/working/tmp/DGPsiyvt0Hpvn.png" user="KimmoKoskenniemi" version="11"
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback