CLT255: Kahdeksas luentokerta

Tästä eteenpäin olevat tehtävät neljä tehtävää muodostavat yhdessä sen materiaalin, jonka pohjalta kukin laatii pienen noin harjoitustyön viisisivuisine raportteineen, joka muodostaa kurssin astekolla 1-5 arvioitavan osan. Harjoitustyö ja lopputehtävät keskittyvät kahden morfologisen jäsentimen (tai oikeinkirjoituksen tarkistimen) laadun vertailuun ja arviointiin. Käytä näitä viikkotehtäviä myös selvittääksesi, miten toteutat varsinaisen pikku harjoitustyön.

Arvioinnin kriteerinä käytetään saantia ja tarkkuutta. Saannilla tarkoitetaan tässä sitä osuutta virheellisistä tai väärin kirjoitetuista saneista, jonka kyseinen ohjelma huomaa sellaisiksi. Jos testaat morfologista jäsennintä, tulkinta on se, että sane tulee hyväksytyksi, jos jäsennin antaa sille yhdenkin tulkinnan ja hylätyksi, jos se ei anna yhtään tulkintaa. Tarkkuudella tarkoitetaan sitä osuutta ohjelman virheellisinä pitämistä saneista, jotka ovat (oman kielitajusi mukaan) väärin kirjoitettuja kielen sananmuotoja tai muuten kieleen kuulumattomia sanoja. Tavoitteena olisi saada osoitetuksi eroja valittujen ohjelmien välille valitsemalla sopivan laajuinen aineisto. Kohteena voi mieluusti olla suomen kieli (mutta muutkin kielet ovat sallittuja).

Tehtävä 6

Tee ehdotus, millaista tai millaisia tekstiaineistoja käyttäisit testaamiseen? Muista, että kohteena on oikeinkirjoituksen tarkistaminen, siis virheellisten sananmuotojen tunnistaminen. Aineistossa pitäisi siis olla virheitäkin. Helpolla pääset, jos aineisto on valmiiksi digitaalista. Valitse kuitenkin useampaa kuin yhtä lajia tekstejä. Perustele aineistojesi valintaa. Katso tarvittaessa Kysymyksiä ja vastauksia -osastoa ja kysy, ellei siellä ole vastauksia.

Tehtävä 7

Valitse testattavat ja verrattavat kaksi ohjelmaa. Mahdollisia ovat mm. Hippu -koneella oleva fintwol, fi-fdg ja textmorfo, esim. Firefoxiin saatavissa oleva oikeinkirjoituksen tarkistus (sanakirja), OpenOfficen ja Microsoftin Office Word -ohjelman oikeinkirjoituksen tarkistus. Mahdollista on myös ottaa vertailtavaksi OMorfi -niminen tekeillä oleva suomen kielen morfologinen jäsennin, joka perustuu HFST-teknologiaan, ks. ohjeita OMorFin käyttämiseksi Hipulla. (Valitessasi vertailtavia ohjelmia, varmista kuitenkin, ettei kyseessä ole saman tarkistimen eri versio.) Perustele valintaasi. Katso tarvittaessa Kysymyksiä ja vastauksia -osastoa ja kysy, ellei siellä ole vastauksia. Omorfin pakattu transduktori löytyy Hipulta hakemistosta /fs/appl/hippu/linux26_x86_64/appl/ling/omorfi/20101026/share/hfst/fi_FI/ tiedostona esim. morphology.omor.hfst.ol mikä saattaisi toimia Python-kielisen ajoaikaisen ajurin kanssa.

Tehtävä 8

Kerro suunnitelmasi, miten muuntaisit aineistosi testiin sopivaksi. Kaikkea ei toki ole tarkoituksenmukaista tehdä ohjelmoimalla tai edes komentoriviltä suoritettavilla skripteillä. Käsityövaiheitakin saa olla. Katso tarvittaessa Kysymyksiä ja vastauksia -osastoa ja kysy, ellei siellä ole vastauksia.

Tehtävä 9

Miten havainnollistaisit ja miten testaisit mahdollisia eroja? Mitä havainnollistamiskeinoja ja mitä tilastollisia testejä käyttäisit? Kerro valintasi ja perustele lyhyesti. Koeta arvata etukäteen, kuinka suurta aineistoa ehkä tarvitset mahdollisen eron osoittamiseen. Katso tarvittaessa Kysymyksiä ja vastauksia -osastoa ja kysy, ellei siellä ole vastauksia.

Kirjallisuutta uteliaille

Seuraavat eivät kuulu mitenkään tämän kurssin suorittamiseen, vaan ovat Google Scholarilla helposti esiin saatuja aihetta käsitteleviä kirjoja.

  • Michael P. Oakes. Statistics for corpus linguistics. Edinburgh University Press, 1998.
  • Anthony Woods,Paul Fletcher,Arthur Hughes._Statistics in language studies_. Cambridge University Press, 1986.
  • Stefan Th Gries. Statistics for Linguistics with R: A Practical Introduction. Mouton de Gruytet, 2009.
  • Stefan Thomas Gries. Quantitative corpus linguistics with R: a practical introduction. Routledge, 2009.

Kevennyksiä:

-- KimmoKoskenniemi - 2010-12-02

Topic revision: r7 - 2010-12-17 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback