Sinin kurssipäiväkirja

12. tehtävä

Siteeraus Wikipediasivulta
Jotkin ohjelmistot, kuten MySQL, ovat saatavilla vapaasti GNU GPL:n alaisena ja lisäksi maksullisena versiona niille, jotka haluavat sisällyttää koodin osaksi omaa suljetun lähdekoodin tuotettaan. Tällöin tulee korostetusti esille, että vapaa ohjelmisto ei ole ilmainen siinä mielessä, että sen saisi omia itselleen, vaan muokattu koodi tulee antaa muiden käyttöön.

Virkkeistä käy ilmi, että GPL-lisenssoitua koodia ei voi sisällyttää kaupallisiin tarkoituksiin, koska nämä ovat pääsääntöisesti suljettuja.

9. tehtävä

Kopioidessani tekstin, poistin siitä käsin sisällysluettelon sekä kuvatekstit.

Skripti:

sed  -r 's/\[[[:digit:]]+\]/ /g' | tr '".,;:?!()[]_' ' ' | sed 's/--//g' | tr 'A-ZÅÄÖ' 'a-zåäö' |  tr -s ' ' '\n' | sort | uniq -c
Poistaa viitteet, erikoismerkit, kaksi peräkkäistä viivaa, isot kirjaimet pieniksi sekä korvaa välilyönnit yhdellä rivinvaihdolla. Tästä vielä lisäksi saneiden järjestäminen aakkosjärjestykseen sekä määrän laskeminen.

20 ensimmäistä n:llä alkavaa sanetta lukumäärineen:

2 n
1 naapurintiellä
1 naapurintien
1 naapurissa
1 ne
1 negatiivisten
1 neljään
4 niiden
1 niissä
2 nimi
1 nimittäin
4 noin
1 nopeammin
1 nopeasti
1 nostaa
2 nosti
1 nousevat
3 nousi
1 nousivat
1 noussut

8. tehtävä

Lisäsin HyClt261s2012JohdatusNooJiin-sivulle ohjeita kielioppien rakentamiseen graafisesti automaatteina.

7. tehtävä

Norminvastaisten kirjoitusasujen hylkäämisessä tulisi ensin tarkastella mitä normilla tarkoitetaan; onko se kirjakieltä vai yleiskieltä? On huomioitava, että vaikka kirjakieltä käytetään muun muassa tieteellisissä julkaisuissa, on se vain yksi kielen rekistereistä. Esimerkiksi suuri määrä esimerkiksi facebookissa tai keskustelupalstoilla olevasta kielestä ei ole kirjakielen mukaista, vaan puhekielistä. Tällöin jos normin vastaiset muodot hylättäisiin, ei kovinkaan hyvää analyysiä saataisi kuin vain osasta tarjolla olevasta tekstimassasta. Lisäksi tällöin jäsennintä ei voisi käyttää puheentunnistuksessa, koska muun muassa puhekielen pronominit eivät olisi hyväksyttäviä.

Lisäksi kieli muuttuu jatkuvasti. Vaikka normit ja esimerkiksi peruskielioppi muuttuvat hitaasti, tulee kieleen jatkuvasti uusia sanoja. Näitäkin pitäisi pystyä käsittelemään puhekielen kieliopin lisäksi, jotta morfologisesta jäsentimestä saataisiin oikeasti hyötyä, eivätkä hakutulokset olisi kuin vain piirun verran parempia kuin ilman morfologista jäsennintä. Tämän takia olisi mielestäni tärkeää, että morfologiset jäsentimet eivät vain hylkäisi tuntematonta kirjoitusasua, vaan yrittäisivät heuristiikan avulla analysoida sen. Tämä mahdollistaisi uusien sanojen ja puhekielen jonkin tasoisen analysoinnin.

6. tehtävä

Oletetaan, että hakuvartalohaulla löydetään kaikki relevantit dokumentit. Muuten saantia ei voi laskea.

Hakuvartalohaku
Haku
hanke*|hankkei*|hankkee*
Tuloksia
34
Relevantteja
9+8+8+2 = 27
Tarkkuus
27/34 = 0,79
Saanti
27/27 = 1

Tarkka haku
Haku
hanke
Tuloksia
8
Relevantteja
8
Tarkkuus
8/8 = 1
Saanti
8/27 = 0,3

Vertailu

Tarkalla haulla tarkkuus on parempi kuin hakuvartalohaulla, mutta saannista huomaa, että vain pieni osa kaikista dokumenteista löydetään. Vastaavasti hakuvartalohaun tarkkuus ei ole täydellinen, mutta sen saanti on, jolloin hakutuloksissa on mukana "roskaa", mutta myös etsityt dokumentit ovat tuloksissa.

5. tehtävä

Merkit:

  • ~ : johdin
  • | : verbin etuliite
  • * : ilmoittaa onko iso alkukirjain pakollinen (jos ei, niin se on ilmoitettu ennen sanan taivutusmuotojen analyysiä)
  • # : yhdyssanaraja
  • \ : ylimääräinen morfi, jotta yhdyssanat voidaan liittää toisiinsa

Sananmuotojen jäsennys

Eidgenössischen

<*eidgenössischen>
"*eid|genöss~isch" S(A) POS SG AKK MASK
"*eid|genöss~isch" S(A) POS SG DAT MASK
"*eid|genöss~isch" S(A) POS SG GEN MASK
"*eid|genöss~isch" S(A) POS SG DAT NEUTR
"*eid|genöss~isch" S(A) POS SG GEN NEUTR
"*eid|genöss~isch" S(A) POS SG DAT FEM
"*eid|genöss~isch" S(A) POS SG GEN FEM
"*eid|genöss~isch" S(A) POS PL NOM
"*eid|genöss~isch" S(A) POS PL AKK
"*eid|genöss~isch" S(A) POS PL DAT
"*eid|genöss~isch" S(A) POS PL GEN
"eid|genöss~isch" * A POS SG AKK MASK STARK
"eid|genöss~isch" * A POS SG GEN MASK STARK
"eid|genöss~isch" * A POS SG GEN NEUTR STARK
"eid|genöss~isch" * A POS PL DAT STARK
"eid|genöss~isch" * A POS SG AKK MASK SCHWACH
"eid|genöss~isch" * A POS SG DAT MASK SCHWACH
"eid|genöss~isch" * A POS SG GEN MASK SCHWACH
"eid|genöss~isch" * A POS SG DAT NEUTR SCHWACH
"eid|genöss~isch" * A POS SG GEN NEUTR SCHWACH
"eid|genöss~isch" * A POS SG DAT FEM SCHWACH
"eid|genöss~isch" * A POS SG GEN FEM SCHWACH
"eid|genöss~isch" * A POS PL NOM SCHWACH
"eid|genöss~isch" * A POS PL AKK SCHWACH
"eid|genöss~isch" * A POS PL DAT SCHWACH
"eid|genöss~isch" * A POS PL GEN SCHWACH

Frauenturnverein

<*frauenturnverein>
"*frau\en#turn#verein" S MASK SG NOM
"*frau\en#turn#verein" S MASK SG AKK
"*frau\en#turn#verein" S MASK SG DAT

Trampolinturnen

<*trampolinturnen>
"*trampolin#turn~en" S NEUTR SG NOM
"*trampolin#turn~en" S NEUTR SG AKK
"*trampolin#turn~en" S NEUTR SG DAT

Studentenverbindungen

<*studentenverbindungen>
"*stud~ent\en#ver|bind~ung" S FEM PL NOM
"*stud~ent\en#ver|bind~ung" S FEM PL AKK
"*stud~ent\en#ver|bind~ung" S FEM PL DAT
"*stud~ent\en#ver|bind~ung" S FEM PL GEN

eingeführt


"ein|führ~en" V TRENNBAR PART PERF
"ein|ge|führt" A(PART) POS
"ein#ge|führt" A(PART) POS

4. tehtävä

Virkkeistys

Cape Breton on saari Kanadan itärannikolla, Nova Scotian provinssissa.
Nimi viittaa ranskan kielen sanaan Breton joka tarkoittaa Bretagnea. Sen erottaa mantereesta Canson salmi, jonka poikki on rakennettu pengerretty tie.

Saaren maasto kohoaa tasaisesti etelästä pohjoiseen; pohjoisimmassa osassa on ylänköalue, jonka korkein kohta White Hill on 532 metriä merenpinnasta.
Saarella asuu noin 148 000 henkeä.
Sen pinta-ala on 10 311 neliökilometriä.
Suurin taajama on Sydneyn kaupunki, jossa toimii Cape Bretonin yliopisto.
Saarella on kansallispuisto, ja siellä järjestetään kelttiläisen musiikin festivaali.

Vuonna 2001 saarella asui 147 454 henkeä. 95 % heistä oli valkoisia, 3,6 % mi'kmaq-intiaaneja, 0,7 % mustia ja 0,1 % arabeja.
Suurimmat uskonnot ovat katolilaisuus (69 820) ja protestanttiset (32 575).
Saarella eli aikoinaan monia gaelin kielen puhujia, he puhuivat kanadan gaelin murretta.
Murteella on nykyisin noin 2 000 puhujaa ja se on vaarassa hävitä kokonaan.

Saneistus

Päädyin saneistuksessani ottamaan lopputulokseen vain varsinaiset kirjainsaneet sekä luvut mittayksiköineen. Mittayksiköt laskin erillisiksi saneiksi. Poistin saneistuksessa ylimääräiset välimerkit (.,) sekä erikoismerkit (sulut). Normalisoin numerot (itse luvulla ei ole väliä, vaan sillä että se on luku) sekä kirjoitin myös lauseen aloittavat sanat pienellä alkukirjaimella.

vuonna
<NUM>
saarella
asui
<NUM>
henkeä
<NUM>
%
heistä
oli
valkoisia
<NUM>
%
mi'kmaq-intiaaneja
<NUM>
%
mustia
ja
<NUM>
%
arabeja
suurimmat
uskonnot
ovat
katolilaisuus
<NUM>
ja
protestanttiset
<NUM>
saarella
eli
aikoinaan
monia
gaelin
kielen
puhujia
he
puhuivat
kanadan
gaelin
murretta
murteella
on
nykyisin
noin
<NUM>
puhujaa
ja
se
on
vaarassa
hävitä
kokonaan

3. tehtävä

a) Syntaktinen jäsentäminen

Syntaktisessa jäsentämisessä kaksoispisteet pois

Syntaktisessa jäsentämisessä ollaan kiinnostuneita siitä, miten saman lauseen sisällä olevat sanat liittyvät toisiinsa. Vaikka kaksoispiste ei varsinaisesti ole virkkeen erotin, voitaisiin sitä tässä sovelluksessa käyttää hyvin erottamaan virkkeitä, koska kaksoispisteellä erotetut lauseet ovat kieliopillisia myös erillisinä virkkeinä, jolloin niitä joka tapauksessa tulisi käsitellä erikseen.

b) Konkordanssi

Konkordanssissa kaksoispisteet jätetään

Konkordanssissa mielenkiinnon kohteena ovat sanat, joiden merkitystä ja käyttöä halutaan tutkia sen ympäristön perusteella. Tällaisessa tapauksessa kaksoispisteet tulisi säilyttää, koska se kertoo, että seuraava lause liittyy edelliseen. Aineiston perusteella seuraava lause määrittää yleensä kaksoispistettä edeltävän lauseen viimeisen sanan tarkennuksen, joten mikäli virkkeistettäisiin kaksoispisteen kohdalta jäisivät nämä tarkennukset näkemättä korkondanssia tarkasteltaessa.

Määritelmät

lekseemi, lemma*, perusmuoto

Lekseemi tarkoittaa sanan helpoiten hahmotettavaa muotoa. Lekseemejä käytetään esimerkiksi sanakirjoissa.
Perusmuoto tarkoittaa sanan vartaloa ilman taivutusmorfeja. Perusmuoto tarkoittaa samaa kuin lemma, joka on suora laina englannista.
Lekseemi ja perusmuoto eivät välttämättä ole samat. Esimerkiksi suomenkielen oppikirjoissa voidaan sanoille merkitä erikseen perusmuoto, jos sanan oikea muoto ei hahmotu kunnolla lekseemistä.

sanamuoto, sanetyyppi, sane

Termit on helpointa esitellä esimerkkilauseen avulla: "Minä ja Kalle saamme pallon, mutta sinä ja Maija ette saa palloa." Saneet ovat sanan esiintymiä lauseessa. Esimerkkilauseessa on siis 12 sanetta (jokainen "sana" erikseen). Sananmuoto tarkoittaa uniikkeja saneita, eli lauseessa on 11 sananmuotoa ("ja" sane toistuu kahteen kertaan). Sanetyyppi on synonyymi sananmuodolle.

johtaminen, taivutus

Johtamisessa sanaan lisätään johtomorfeemi/-morfeemeja, jolloin syntyy uusi sana. Taivutuksessa sanaan lisätään morfeemeja, jotta se olisi oikeassa syntaktisessa muodossa lauseessa (uutta sanaa ei siis synny, vaan merkitys pohjautuu alkuperäiseen sanaan).

morfeemi, morfi, allomorfi

Morfi on pienin merkitystä välittävä sanan osa. Morfeemi kattaa morfit, jotka välittävät samaa merkitystä. Samaan morfeemiin kuuluvat morfit ovat allomorfeja.

isoloiva*, agglutinoiva, fusioiva* kieli

Isoloivassa kielessä sanat lähes ollenkaan liity taivutusmorfeja. Sekä agglutinoivissa että fusioivissa kielissä on taivutusmorfeja, mutta agglutinoivissa kielissä yhdellä morfilla on vain yksi tehtävä tai merkitys, kun taas fusioivilla kielillä yksi morfi voi tarkoittaa useaa asiaa (esim. sekä genetiivin että datiivin tunnus) tai siihen voi olla liittyneenä päällekäisiä merkityksiä (esim. genetiivin monikko).

juuri, vartalo

Sanan vartalo on sana, joka ei sisällä taivutusmorfeja. Sanan juuri on sanan vartalo, josta on lisäksi poistettu myös johtomorfit.

vartalon astevaihtelu*, vahva vokaalivartalo

Sanojen vartaloon voi tulla muutoksia kun sanaa taivutetaan eri sijoissa (esim. käsi -> käden (sd-vaihtelu)). Vahva vokaalivartalo taas näyttää sanan syvämuodon.

yhdyssana, sanaliitto*, fraasi*

Fraasi on kahdesta tai useammasta sanasta koostuva sanayhtymä. Sanaliitto tarkoittaa kiinteää sanojen muodostamaa fraasia. Yhdyssanassa sanat ovat sulautuneet yhteen muodostaen yksittäisen sanan. Yhdyssanan ja sanaliiton ero on, että sanaliitossa pääpaino on jokaisella sanalla, joten sanaliiton sanat kirjoitetaan erikseen.

2. tehtävä

Haasteita morfien erottelussa aiheutti sanan vartaloiden muutokset.

miehen

  • morfit:
    • mieh-en
  • lekseemi:
    • MIES
  • taivutusmorfit:
    • en - genetiivi
  • juuri:
    • MIES
  • johtomorfit: -

rannalla

  • morfit:
    • ranna-lla
  • lekseemi:
    • RANTA
  • taivutusmorfit:
    • lla - adessiivi
  • juuri:
    • RANTA
  • johtomorfit: -

epäjärjestelmällisyyttäkö

  • morfit:
    • epä-järjestel-mä-lli-syy-ttä-kö
      • viimeistä s-kirjaimen kohdalla oli hankala valita kumpaan morfiin se kuuluisi
  • lekseemi:
    • EPÄJÄRJESTELMÄLLISYYS
  • taivutusmorfit:
    • ttä - partitiivi
    • kö - kysymys
  • juuri:
    • JÄRJESTELMÄ
  • johtomorfit:
    • epä - negaatio
    • mä - johto substantiiviksi
    • lli - omistus/olemassaolo
    • syys - johto substantiiviksi

1. tehtävä

Sovelluksissa voidaan käyttä useampia tekniikoita, joten jotkin sovellukset esiintyvät useammassa kuin yhdessä ryhmässä.

Oman tulkintani mukaan kielimalli ja luonnollisen kielen generointi ovat toistensa "käänteismenetelmiä", mutta toista ei voi vain käyttää toisen sijaan, koska kielessä tapahtuvat muutokset eivät ole bijektioita.

  • Kielimalli
    • sanojen morfologinen jäsennin
    • sanavälien tunnistin
    • puheentunnistus
    • japanin kirjoittaminen
  • Taivutuksen haittojen neutraloijana
    • perusmuotoistin
    • oikeinkirjoituksen tarkistin
    • tiedonhaku
  • Kompleksisten sananmuotojen rakenteen tunnistajana
    • morfologinen jäsennin
    • oikeinkirjoituksen tarkistin
    • japanin kirjoittaminen
  • Heuristinen jäsentäminen
    • puheentunnistus
      • esimerkiksi erisnimet
    • sanojen morfologinen jäsennin
      • tuntemattomat sanat
    • japanin kirjoittaminen
  • Muu: Luonnollisen kielen generointi
    • tiedonhaku
      • vaihtoehtoiset hakuvartalot
    • puhesynteesi

Omia muistiinpanoja

  • ...
* Set ALLOWTOPICVIEW = AnssiYliJyra, SiniPessala

-- SiniPessala - 2012-11-13

Topic revision: r7 - 2012-12-20 - SiniPessala
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback