Toisen kerran muistiinpanot (laati Miikka)

Teknisiä dokumentteja evaluointiin esim. http://www.microsoft.com/finland/pkinfo/products/howto/hub.mspx

etsittiin tietoa jäsentimen soveltumisesta tiedonhakuun sekä oikeinkirjoitukseen ja indeksiontiohjelmista.

  • Tiedonhaun sovellukset
    • Olisi hyvä, jos jäsennin pystyisi antamaan sanan tulkinnat järkevässä järjestyksessä.
    • Nopeus ei tunnut olevan tärkeää, koska pävittäin uusia dokumentteja tulee vain kymmenkunta.
    • Sellaiset dokumentit ovat relevantimpia, joista löytyy täsmällinen osuma.
    • Jäsentimeen ei pitäisi tehdä kattavaa johto-oppia.

  • Oikeinkirjotuksen sovellukset
    • Saantitestin käänteinen ongelma. Pitää löytää tekstistä virheet.
    • Call.
    • Pelkkä edit-metriikka ei ehkä ole paras tapa löytää korjauksia.
    • Testit pitäisi tehdä eri sanastoilla.

  • Indeksointi-ohjelmat
    • Morfologista jäsenintä käytetään hakulausekkeen jäsentämiseen.
    • Hakuun generoidaan kaikki taivutusmuodot.
    • Taivutusmuodot niputetaan yhdeksi hakumuotojoukoksi.
    • Ei ehkä kannata perusmuotoistaa dokumenttitietokannan tekstejä, koska haun tarkkuus vähenee.

  • Tavallisimmat oikeinkirjoitusvirheet
    • ab -> ba
    • abc -> ac
    • a -> ab, b -> ab
    • Painotetaan qwerty-näppäimistöä.
    • Taivutuksessa ja sanojen johtamisessa virheitä.
    • Epäkonventionaaliset kirjoitusasut.
    • Jos samaa äännettä vastaa kaksi eri merkkiä, voi tulla virheitä.
    • Muut kielet vaikuttavat.

  • Evaluoinia
    • Jäsentimen tulisi tarjota järkevä rajapinta spellerille.
    • Millaisia virhitä morfologisessa jäsentimessä on?
    • Millaisia tavalisimmat virheet ovat?
    • Mitkä sanamuodot jäävät tunnistumatta?
    • Mitkä modot jäsentimen pitäisi tunnistaa, mutta se ei tunnista?
    • Miten yhdyssanoihin suhtaudutaan? Onko järjestelmällä fiksattu lista yhdyssanoja?

  • Testit
    • Valitaan gold-standard tekstejä.
    • Generoidaan niihin virheitä.
    • Luokitellaan virheitä.
    • saanti, tarkkuus.
    • Analysoidaanko yhdyssanoja paljon väärin.
    • Millaiset sana tunnistuvat yhdyssanoiksi.
    • Tehdään testit eri sanalistoilla.
    • Yksi tapa olisi analysoida tekstejä ja lisätä aina tunistumattomat sanat jäsentimeen.

-- MiikkaSilfverberg - 23 Jan 2008

Topic revision: r3 - 2008-01-28 - MiikkaSilfverberg
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback