• Aineistossa 459 sanaa (303 sananmuotoa).
  • Näissä oli 64 yhdyssanaa (59 sananmuotoa).
  • Tunnistumattomia sanoja oli 105 (77 sananmuotoa).
  • Yhdyssanoista jäi tunnistumatta 59 (55 sananmuotoa).

Yhdyssanojen saanti oli 5/64 eli 8%. Kävi ilmi, ettei ole ainakaan fst-mor ohjelman avulla mahdollista selvittää, onko sana tulkittu yhdyssanaksi, vai ei. Näin ollen ei yhdyssanojen tunnistumisen tarkkuudesta oikein voi sanoa mitään. Ei siis voi helposti tarkastella sitäkään, antaako järjestelmä eksoottisia yhdyssanatulkintoja kummallisille sanoille. Tätä kai piti selvittää.

Ainakin tässä tuli toistettua se tulos, että suuri osa tunnistumattomista sanoista on yhdyssanoja.

Tunnistuneet sananmuodot olivat:

  • sähköpostissa
  • kaikenlaisen
  • sähköpostissa
  • vaihtoehtoisesti
  • muunlaisten
  • muunlaisten

Osa näistä on kyllä jo niin leksikaalistuneita, ettei minun ehkä olisi pitänyt laskea niitä yhdyssanoiksi.

-- MiikkaSilfverberg - 29 Jan 2008


-- KristerLinden - 23 Jan 2008
Topic revision: r1 - 2008-01-29 - MiikkaSilfverberg
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback