Sinin kurssipäiväkirja
12. tehtävä
- Siteeraus Wikipediasivulta
- Jotkin ohjelmistot, kuten MySQL, ovat saatavilla vapaasti GNU GPL:n alaisena ja lisäksi maksullisena versiona niille, jotka haluavat sisällyttää koodin osaksi omaa suljetun lähdekoodin tuotettaan. Tällöin tulee korostetusti esille, että vapaa ohjelmisto ei ole ilmainen siinä mielessä, että sen saisi omia itselleen, vaan muokattu koodi tulee antaa muiden käyttöön.
Virkkeistä käy ilmi, että GPL-lisenssoitua koodia ei voi sisällyttää kaupallisiin tarkoituksiin, koska nämä ovat pääsääntöisesti suljettuja.
9. tehtävä
Kopioidessani tekstin, poistin siitä käsin sisällysluettelon sekä kuvatekstit.
Skripti:
sed -r 's/\[[[:digit:]]+\]/ /g' | tr '".,;:?!()[]_' ' ' | sed 's/--//g' | tr 'A-ZÅÄÖ' 'a-zåäö' | tr -s ' ' '\n' | sort | uniq -c
Poistaa viitteet, erikoismerkit, kaksi peräkkäistä viivaa, isot kirjaimet pieniksi sekä korvaa välilyönnit yhdellä rivinvaihdolla. Tästä vielä lisäksi saneiden järjestäminen aakkosjärjestykseen sekä määrän laskeminen.
20 ensimmäistä n:llä alkavaa sanetta lukumäärineen:
2 n
1 naapurintiellä
1 naapurintien
1 naapurissa
1 ne
1 negatiivisten
1 neljään
4 niiden
1 niissä
2 nimi
1 nimittäin
4 noin
1 nopeammin
1 nopeasti
1 nostaa
2 nosti
1 nousevat
3 nousi
1 nousivat
1 noussut
8. tehtävä
Lisäsin
HyClt261s2012JohdatusNooJiin-sivulle ohjeita kielioppien rakentamiseen graafisesti automaatteina.
7. tehtävä
Norminvastaisten kirjoitusasujen hylkäämisessä tulisi ensin tarkastella mitä normilla tarkoitetaan; onko se kirjakieltä vai yleiskieltä? On huomioitava, että vaikka kirjakieltä käytetään muun muassa tieteellisissä julkaisuissa, on se vain yksi kielen rekistereistä. Esimerkiksi suuri määrä esimerkiksi facebookissa tai keskustelupalstoilla olevasta kielestä ei ole kirjakielen mukaista, vaan puhekielistä. Tällöin jos normin vastaiset muodot hylättäisiin, ei kovinkaan hyvää analyysiä saataisi kuin vain osasta tarjolla olevasta tekstimassasta. Lisäksi tällöin jäsennintä ei voisi käyttää puheentunnistuksessa, koska muun muassa puhekielen pronominit eivät olisi hyväksyttäviä.
Lisäksi kieli muuttuu jatkuvasti. Vaikka normit ja esimerkiksi peruskielioppi muuttuvat hitaasti, tulee kieleen jatkuvasti uusia sanoja. Näitäkin pitäisi pystyä käsittelemään puhekielen kieliopin lisäksi, jotta morfologisesta jäsentimestä saataisiin oikeasti hyötyä, eivätkä hakutulokset olisi kuin vain piirun verran parempia kuin ilman morfologista jäsennintä. Tämän takia olisi mielestäni tärkeää, että morfologiset jäsentimet eivät vain hylkäisi tuntematonta kirjoitusasua, vaan yrittäisivät heuristiikan avulla analysoida sen. Tämä mahdollistaisi uusien sanojen ja puhekielen jonkin tasoisen analysoinnin.
6. tehtävä
Oletetaan, että hakuvartalohaulla löydetään kaikki relevantit dokumentit. Muuten saantia ei voi laskea.
Hakuvartalohaku
- Haku
- hanke*|hankkei*|hankkee*
- Tuloksia
- 34
- Relevantteja
- 9+8+8+2 = 27
- Tarkkuus
- 27/34 = 0,79
- Saanti
- 27/27 = 1
Tarkka haku
- Haku
- hanke
- Tuloksia
- 8
- Relevantteja
- 8
- Tarkkuus
- 8/8 = 1
- Saanti
- 8/27 = 0,3
Vertailu
Tarkalla haulla tarkkuus on parempi kuin hakuvartalohaulla, mutta saannista huomaa, että vain pieni osa kaikista dokumenteista löydetään. Vastaavasti hakuvartalohaun tarkkuus ei ole täydellinen, mutta sen saanti on, jolloin hakutuloksissa on mukana "roskaa", mutta myös etsityt dokumentit ovat tuloksissa.
5. tehtävä
Merkit:
- ~ : johdin
- | : verbin etuliite
- * : ilmoittaa onko iso alkukirjain pakollinen (jos ei, niin se on ilmoitettu ennen sanan taivutusmuotojen analyysiä)
- # : yhdyssanaraja
- \ : ylimääräinen morfi, jotta yhdyssanat voidaan liittää toisiinsa
Sananmuotojen jäsennys
Eidgenössischen
<*eidgenössischen>
"*eid|genöss~isch" S(A) POS SG AKK MASK
"*eid|genöss~isch" S(A) POS SG DAT MASK
"*eid|genöss~isch" S(A) POS SG GEN MASK
"*eid|genöss~isch" S(A) POS SG DAT NEUTR
"*eid|genöss~isch" S(A) POS SG GEN NEUTR
"*eid|genöss~isch" S(A) POS SG DAT FEM
"*eid|genöss~isch" S(A) POS SG GEN FEM
"*eid|genöss~isch" S(A) POS PL NOM
"*eid|genöss~isch" S(A) POS PL AKK
"*eid|genöss~isch" S(A) POS PL DAT
"*eid|genöss~isch" S(A) POS PL GEN
"eid|genöss~isch" * A POS SG AKK MASK STARK
"eid|genöss~isch" * A POS SG GEN MASK STARK
"eid|genöss~isch" * A POS SG GEN NEUTR STARK
"eid|genöss~isch" * A POS PL DAT STARK
"eid|genöss~isch" * A POS SG AKK MASK SCHWACH
"eid|genöss~isch" * A POS SG DAT MASK SCHWACH
"eid|genöss~isch" * A POS SG GEN MASK SCHWACH
"eid|genöss~isch" * A POS SG DAT NEUTR SCHWACH
"eid|genöss~isch" * A POS SG GEN NEUTR SCHWACH
"eid|genöss~isch" * A POS SG DAT FEM SCHWACH
"eid|genöss~isch" * A POS SG GEN FEM SCHWACH
"eid|genöss~isch" * A POS PL NOM SCHWACH
"eid|genöss~isch" * A POS PL AKK SCHWACH
"eid|genöss~isch" * A POS PL DAT SCHWACH
"eid|genöss~isch" * A POS PL GEN SCHWACH
Frauenturnverein
<*frauenturnverein>
"*frau\en#turn#verein" S MASK SG NOM
"*frau\en#turn#verein" S MASK SG AKK
"*frau\en#turn#verein" S MASK SG DAT
Trampolinturnen
<*trampolinturnen>
"*trampolin#turn~en" S NEUTR SG NOM
"*trampolin#turn~en" S NEUTR SG AKK
"*trampolin#turn~en" S NEUTR SG DAT
Studentenverbindungen
<*studentenverbindungen>
"*stud~ent\en#ver|bind~ung" S FEM PL NOM
"*stud~ent\en#ver|bind~ung" S FEM PL AKK
"*stud~ent\en#ver|bind~ung" S FEM PL DAT
"*stud~ent\en#ver|bind~ung" S FEM PL GEN
eingeführt
"ein|führ~en" V TRENNBAR PART PERF
"ein|ge|führt" A(PART) POS
"ein#ge|führt" A(PART) POS
4. tehtävä
Virkkeistys
Cape Breton on saari Kanadan itärannikolla, Nova Scotian provinssissa.
Nimi viittaa ranskan kielen sanaan Breton joka tarkoittaa Bretagnea. Sen erottaa mantereesta Canson salmi, jonka poikki on rakennettu pengerretty tie.
Saaren maasto kohoaa tasaisesti etelästä pohjoiseen; pohjoisimmassa osassa on ylänköalue, jonka korkein kohta White Hill on 532 metriä merenpinnasta.
Saarella asuu noin 148 000 henkeä.
Sen pinta-ala on 10 311 neliökilometriä.
Suurin taajama on Sydneyn kaupunki, jossa toimii Cape Bretonin yliopisto.
Saarella on kansallispuisto, ja siellä järjestetään kelttiläisen musiikin festivaali.
Vuonna 2001 saarella asui 147 454 henkeä. 95 % heistä oli valkoisia, 3,6 % mi'kmaq-intiaaneja, 0,7 % mustia ja 0,1 % arabeja.
Suurimmat uskonnot ovat katolilaisuus (69 820) ja protestanttiset (32 575).
Saarella eli aikoinaan monia gaelin kielen puhujia, he puhuivat kanadan gaelin murretta.
Murteella on nykyisin noin 2 000 puhujaa ja se on vaarassa hävitä kokonaan.
Saneistus
Päädyin saneistuksessani ottamaan lopputulokseen vain varsinaiset kirjainsaneet sekä luvut mittayksiköineen. Mittayksiköt laskin erillisiksi saneiksi. Poistin saneistuksessa ylimääräiset välimerkit (.,) sekä erikoismerkit (sulut). Normalisoin numerot (itse luvulla ei ole väliä, vaan sillä että se on luku) sekä kirjoitin myös lauseen aloittavat sanat pienellä alkukirjaimella.
vuonna
<NUM>
saarella
asui
<NUM>
henkeä
<NUM>
%
heistä
oli
valkoisia
<NUM>
%
mi'kmaq-intiaaneja
<NUM>
%
mustia
ja
<NUM>
%
arabeja
suurimmat
uskonnot
ovat
katolilaisuus
<NUM>
ja
protestanttiset
<NUM>
saarella
eli
aikoinaan
monia
gaelin
kielen
puhujia
he
puhuivat
kanadan
gaelin
murretta
murteella
on
nykyisin
noin
<NUM>
puhujaa
ja
se
on
vaarassa
hävitä
kokonaan
3. tehtävä
a) Syntaktinen jäsentäminen
Syntaktisessa jäsentämisessä kaksoispisteet pois
Syntaktisessa jäsentämisessä ollaan kiinnostuneita siitä, miten saman lauseen sisällä olevat sanat liittyvät toisiinsa. Vaikka kaksoispiste ei varsinaisesti ole virkkeen erotin, voitaisiin sitä tässä sovelluksessa käyttää hyvin erottamaan virkkeitä, koska kaksoispisteellä erotetut lauseet ovat kieliopillisia myös erillisinä virkkeinä, jolloin niitä joka tapauksessa tulisi käsitellä erikseen.
b) Konkordanssi
Konkordanssissa kaksoispisteet jätetään
Konkordanssissa mielenkiinnon kohteena ovat sanat, joiden merkitystä ja käyttöä halutaan tutkia sen ympäristön perusteella. Tällaisessa tapauksessa kaksoispisteet tulisi säilyttää, koska se kertoo, että seuraava lause liittyy edelliseen. Aineiston perusteella seuraava lause määrittää yleensä kaksoispistettä edeltävän lauseen viimeisen sanan tarkennuksen, joten mikäli virkkeistettäisiin kaksoispisteen kohdalta jäisivät nämä tarkennukset näkemättä korkondanssia tarkasteltaessa.
Määritelmät
lekseemi, lemma*, perusmuoto
Lekseemi tarkoittaa sanan helpoiten hahmotettavaa muotoa. Lekseemejä käytetään esimerkiksi sanakirjoissa.
Perusmuoto tarkoittaa sanan vartaloa ilman taivutusmorfeja. Perusmuoto tarkoittaa samaa kuin lemma, joka on suora laina englannista.
Lekseemi ja perusmuoto eivät välttämättä ole samat. Esimerkiksi suomenkielen oppikirjoissa voidaan sanoille merkitä erikseen perusmuoto, jos sanan oikea muoto ei hahmotu kunnolla lekseemistä.
sanamuoto, sanetyyppi, sane
Termit on helpointa esitellä esimerkkilauseen avulla: "Minä ja Kalle saamme pallon, mutta sinä ja Maija ette saa palloa." Saneet ovat sanan esiintymiä lauseessa. Esimerkkilauseessa on siis 12 sanetta (jokainen "sana" erikseen). Sananmuoto tarkoittaa uniikkeja saneita, eli lauseessa on 11 sananmuotoa ("ja" sane toistuu kahteen kertaan). Sanetyyppi on synonyymi sananmuodolle.
johtaminen, taivutus
Johtamisessa sanaan lisätään johtomorfeemi/-morfeemeja, jolloin syntyy uusi sana. Taivutuksessa sanaan lisätään morfeemeja, jotta se olisi oikeassa syntaktisessa muodossa lauseessa (uutta sanaa ei siis synny, vaan merkitys pohjautuu alkuperäiseen sanaan).
morfeemi, morfi, allomorfi
Morfi on pienin merkitystä välittävä sanan osa. Morfeemi kattaa morfit, jotka välittävät samaa merkitystä. Samaan morfeemiin kuuluvat morfit ovat allomorfeja.
isoloiva*, agglutinoiva, fusioiva* kieli
Isoloivassa kielessä sanat lähes ollenkaan liity taivutusmorfeja. Sekä agglutinoivissa että fusioivissa kielissä on taivutusmorfeja, mutta agglutinoivissa kielissä yhdellä morfilla on vain yksi tehtävä tai merkitys, kun taas fusioivilla kielillä yksi morfi voi tarkoittaa useaa asiaa (esim. sekä genetiivin että datiivin tunnus) tai siihen voi olla liittyneenä päällekäisiä merkityksiä (esim. genetiivin monikko).
juuri, vartalo
Sanan vartalo on sana, joka ei sisällä taivutusmorfeja. Sanan juuri on sanan vartalo, josta on lisäksi poistettu myös johtomorfit.
vartalon astevaihtelu*, vahva vokaalivartalo
Sanojen vartaloon voi tulla muutoksia kun sanaa taivutetaan eri sijoissa (esim. käsi -> käden (sd-vaihtelu)). Vahva vokaalivartalo taas näyttää sanan syvämuodon.
yhdyssana, sanaliitto*, fraasi*
Fraasi on kahdesta tai useammasta sanasta koostuva sanayhtymä. Sanaliitto tarkoittaa kiinteää sanojen muodostamaa fraasia. Yhdyssanassa sanat ovat sulautuneet yhteen muodostaen yksittäisen sanan. Yhdyssanan ja sanaliiton ero on, että sanaliitossa pääpaino on jokaisella sanalla, joten sanaliiton sanat kirjoitetaan erikseen.
2. tehtävä
Haasteita morfien erottelussa aiheutti sanan vartaloiden muutokset.
miehen
- morfit:
- lekseemi:
- taivutusmorfit:
- juuri:
- johtomorfit: -
rannalla
- morfit:
- lekseemi:
- taivutusmorfit:
- juuri:
- johtomorfit: -
epäjärjestelmällisyyttäkö
- morfit:
- epä-järjestel-mä-lli-syy-ttä-kö
- viimeistä s-kirjaimen kohdalla oli hankala valita kumpaan morfiin se kuuluisi
- lekseemi:
- taivutusmorfit:
- ttä - partitiivi
- kö - kysymys
- juuri:
- johtomorfit:
- epä - negaatio
- mä - johto substantiiviksi
- lli - omistus/olemassaolo
- syys - johto substantiiviksi
1. tehtävä
Sovelluksissa voidaan käyttä useampia tekniikoita, joten jotkin sovellukset esiintyvät useammassa kuin yhdessä ryhmässä.
Oman tulkintani mukaan kielimalli ja luonnollisen kielen generointi ovat toistensa "käänteismenetelmiä", mutta toista ei voi vain käyttää toisen sijaan, koska kielessä tapahtuvat muutokset eivät ole bijektioita.
- Kielimalli
- sanojen morfologinen jäsennin
- sanavälien tunnistin
- puheentunnistus
- japanin kirjoittaminen
- Taivutuksen haittojen neutraloijana
- perusmuotoistin
- oikeinkirjoituksen tarkistin
- tiedonhaku
- Kompleksisten sananmuotojen rakenteen tunnistajana
- morfologinen jäsennin
- oikeinkirjoituksen tarkistin
- japanin kirjoittaminen
- Heuristinen jäsentäminen
- puheentunnistus
- sanojen morfologinen jäsennin
- japanin kirjoittaminen
- Muu: Luonnollisen kielen generointi
- tiedonhaku
- vaihtoehtoiset hakuvartalot
- puhesynteesi
Omia muistiinpanoja
* Set ALLOWTOPICVIEW =
AnssiYliJyra,
SiniPessala
--
SiniPessala - 2012-11-13