Toisen kerran muistiinpanot (laati Miikka)

Teknisiä dokumentteja evaluointiin esim. http://www.microsoft.com/finland/pkinfo/products/howto/hub.mspx

etsittiin tietoa jäsentimen soveltumisesta tiedonhakuun sekä oikeinkirjoitukseen ja indeksiontiohjelmista.

 • Tiedonhaun sovellukset
  • Olisi hyvä, jos jäsennin pystyisi antamaan sanan tulkinnat järkevässä järjestyksessä.
  • Nopeus ei tunnut olevan tärkeää, koska pävittäin uusia dokumentteja tulee vain kymmenkunta.
  • Sellaiset dokumentit ovat relevantimpia, joista löytyy täsmällinen osuma.
  • Jäsentimeen ei pitäisi tehdä kattavaa johto-oppia.

 • Oikeinkirjotuksen sovellukset
  • Saantitestin käänteinen ongelma. Pitää löytää tekstistä virheet.
  • Call.
  • Pelkkä edit-metriikka ei ehkä ole paras tapa löytää korjauksia.
  • Testit pitäisi tehdä eri sanastoilla.

 • Indeksointi-ohjelmat
  • Morfologista jäsenintä käytetään hakulausekkeen jäsentämiseen.
  • Hakuun generoidaan kaikki taivutusmuodot.
  • Taivutusmuodot niputetaan yhdeksi hakumuotojoukoksi.
  • Ei ehkä kannata perusmuotoistaa dokumenttitietokannan tekstejä, koska haun tarkkuus vähenee.

 • Tavallisimmat oikeinkirjoitusvirheet
  • ab -> ba
  • abc -> ac
  • a -> ab, b -> ab
  • Painotetaan qwerty-näppäimistöä.
  • Taivutuksessa ja sanojen johtamisessa virheitä.
  • Epäkonventionaaliset kirjoitusasut.
  • Jos samaa äännettä vastaa kaksi eri merkkiä, voi tulla virheitä.
  • Muut kielet vaikuttavat.

 • Evaluoinia
  • Jäsentimen tulisi tarjota järkevä rajapinta spellerille.
  • Millaisia virhitä morfologisessa jäsentimessä on?
  • Millaisia tavalisimmat virheet ovat?
  • Mitkä sanamuodot jäävät tunnistumatta?
  • Mitkä modot jäsentimen pitäisi tunnistaa, mutta se ei tunnista?
  • Miten yhdyssanoihin suhtaudutaan? Onko järjestelmällä fiksattu lista yhdyssanoja?

 • Testit
  • Valitaan gold-standard tekstejä.
  • Generoidaan niihin virheitä.
  • Luokitellaan virheitä.
  • saanti, tarkkuus.
  • Analysoidaanko yhdyssanoja paljon väärin.
  • Millaiset sana tunnistuvat yhdyssanoiksi.
  • Tehdään testit eri sanalistoilla.
  • Yksi tapa olisi analysoida tekstejä ja lisätä aina tunistumattomat sanat jäsentimeen.

-- MiikkaSilfverberg - 23 Jan 2008

Topic revision: r3 - 2008-01-28 - MiikkaSilfverberg
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback