Ensimmäisen kerran muistiinpanot

Luennolla käsiteltiin kurssisivuilta löytyvää tapausta 1 PBL-menetelmän mukaisesti.


  1. Tapaukseen liittyvät käsitteet
  2. Mitkä on tapauksen ongelmat?
  3. Minkälaisia näkökulmia ongelmiin liittyy?
  4. Mikä tapauksessa on oleellista?
  5. Mitä pitää selvittää seuraavalle kerralle?
  6.  
  7.  

  1. - Perusmuodon palautus * sananmuoto --> perusmuoto * On mahdollista, että on olemassa useita perusmuotoja yhtä sananmuotoa kohden.

- Avoimen lähdekoodin sovellus * GNU-lisenssi. * Sovellusta ei saa jakaa tai kehittää suljetulla lisenssillä. * Kaikkien saatavissa maksutta.

- Erikoisspelleri * Oikeinkirjoitusohjelma joka on räätälöity yrityksen tarpeisiin

  1. - Morfologisen jäsentimen soveltuvuus kaupallisiin tarkoituksiin. - Sen suorituskyky. - Sen laajennettavuus ja mahdollisuudet käyttää sitä osana isompaa järjestelmää.

3. ja 4. - Soveltuvuus kaupallisiin tarkoituksiin * Tarkoittaako avoin lisenssi, ettei morf. jäsennintä saa käyttää osana kaupallista ohjelmaa? * Joutuuko yritys julkaisemaan omia sanastojaan, jos se käyttää jäsennintä? * Sillä on eroa, onko sovellus ainoastaan omaan käyttöön vai levitetäänkö sitä. [ Näistä keskusteltiin melko paljon ja tultiin siihen tulokseen, ettei kaupallisuus ole ongelma, koska Yritys Oy käyttää morfologista jäsennintä itse, muttei levitä sitä.]

- Suorituskyky * Kuinka monta sana/sekunti juoksevaa teksti sovellus pystyy käsittelemään? * Miten sanaston laajentaminen vaikuttaa sovelluksen suorituskykyyn? * Saanti/tarkkuus [Tommin gradu ja Tuomo Kakkosen PhD-thesis.]

- Laajentaminen * Jos sanasto on xml-muotoinen on sen laajentaminen helppoa. * Voidaanko morfologista jäsennintä käyttää osana oikeinkirjoitus- tai tiedonhaku-ohjelmaa. * Miten tähän vaikuttaa se, että jäsennin voi antaa yhdelle sananmuodolle useampia mahdollisia perusmuotoja. * Morfologiselta jäsentimeltä saa suoraan sanojen perusmuodot tiedonhaun tarpeisiin. * Joidenkin sanojen palauttaminen perusmuotoon olennaisempaa kuin toisten. * Tiedonhaun ja oikeinkirjoituksen tarpeet erilaiset. [ Tiedonhaussa on hyvä yrittää analysoida kummallisiakin sanoja. Oikeinkirjoituksessa on hyvä varoittaa kummallisista sanoista.]

5. - Millaisia indeksoitisoftia on olemassa? Mitkä asiat vaikuttavat siihen, kuinka hyvin ne ovat morfologisen jäsentimen kanssa yhteensopivia? - Onko SFST-modulissa sopivia osia, joilla morfologista jäsennintä voisi käyttää oikeinkirjoitusohjelmassa? - Miten pitäisi testata jäsentimen soveltuvuutta tiedonhaku. ja oikeinkirjoitussovellusten osaksi.

6.

7.

Sovittiin, että kaikki lukevat Tommi gradusta luvun 4 ja Tuomon väikkäristä luvut 8 sekä 9. Lisäksi

- Tuomas etsii tietoa indeksointiohjelmista ja tarkastelee SFST:tä. Erityisesti kuinka hyvin indeksointiohjelmia voi liittää yhteen morfologisen jäsentimen kanssa ja millaista tukes SFST antaa oikeinkirjoitusohjelmien tekemiseen morfologisen jäsentimen pohjalta.

- Tommi etsii tietoa siitä, miten on mahdollista testata jäsentimen soveltuvuutta oikolukuohjelman osaksi.

- Miikka tekee samaa kuin Tommi paitsi että testaus koskee tiedonhakuohjelmia.

Tässä mainittu mteriaali löytyy osoitteista: Tommin gradu www.helsinki.fi/~tapirinen/gradu

Tuomo Kakkosen PhD-thesis http://cs.joensuu.fi/~tkakkone/files/TK_Thesis_Final.pdf


-- MiikkaSilfverberg - 23 Jan 2008
Topic revision: r1 - 2008-01-23 - MiikkaSilfverberg
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback