Back to: SuomenKielipankki:Helpdesk

Helpdesk Item: What Are Counted as Words?

Description of the Problem

Word Count in the Text Bank of the Finnish Language
Q1: Sisältyvätkö numeromuotoiset "sanat" korpuksista annettuihin sanamäärään (antalet graford) suomen kielen tekstikoelmassa.

Q2: työssäni mainitsen suomen kielen tekstikokoelman nykyisen tarkan koon, eli 179 556 341 sanaa. Tarvitsisin kuitenkin täsmentää mitä tarkaan tarkoittaa sanaa Kielipankin korpuksessa - lasketaanko yhdeksi sanaksi myös numeroita, yhdyssanoja ym?

The Answer(s)

Word Count in the Text Bank of the Finnish Language
A1: Hyvä kysymys. En tiedä varmasti kun en ole itse laskenut määriä, mutta yleensä myös luvut ja välimerkit lasketaan ns. tokeniksi. On tosiaan tulkinnanvaraista miten määrät kulloinkin lasketaan. Sanalistoissa ja -kirjoissa numerot yleensä jätetään pois, vaikka poikkeuksiakin on.

Täysin oikeaa laskentatapaa ei ole, enkä löydä määritelmää graford:ille joka vastannee tekstisanetta eli esiintymää. Tälloin mukana olisi käsittääkseni kaikki saneet riippumatta siitä onko ne kirjoitettu kirjaimin vai numeroin, muttei välimerkkejä. Kannattaa pyrkiä toteamaan tämä epäsevyys ja oma johtopäätöksesi siitä tutkimusessasi niin että käy ilmi että luvut on laskenut joku toinen. Usein sanamäärän ohella ratkaisevampaa on se miten sanamäärät eroavat toisistaan. Tosin toisinaan tutkinta-tapa voi vaikuttaa tulosten merkitsevyyteen.

Voit myös ehkä sopivien hakujen avulla saada käsityksen siitä miten asian laita voisi olla.


A2: Nämä sanojen lukumäärät on laskettu yhteen XCES-koodattujen aineistojen TEI-headereissa mainituista luvuista. Näistä luvuista vastuu on viime kädessä aineiston kokoajilla. Jonkinlaisen tarkistuksen tekemiseksi suoritimme laskun uudestaan yhden suomen tekstipankin tiedoston kohdalla.

cat aamulehti/1999/12/al56838.xml | egrep -A2 '<wordCount>' 
  <wordCount>
  1245
  </wordCount>
tei2snt < aamulehti/1999/12/al56838.xml | wc -w
  1237
cat aamulehti/1999/12/al56838.xml | egrep '<w lemma' | wc -l
  1202

Eli nopea laskutapamme eroaa virallisesti ilmoitetusta muutaman sanan verran. tei2snt-ohjelmaa käyttävä laskutapa laski 35 kertaa esiintyvät numeraalit, kuten 3 070, kahdeksi sanaksi, kun taas lemmojen perusteella tuollaiset numeraalit lasketaan yhdeksi sanaksi.

Mitä tulee välimerkkeihin, ne ilmeisesti on laskettu myös sanoiksi paitsi esiintyessään esim. päivämäärien, lukujen ja kirjaimin kirjoitettujen sanojen sisällä niin että ne eivät merkitse lauserakennetta. Esim. välimerkit tai välilyönnein erotetut yksittäiset numerot (esim. 3 luvussa 3 070) saadaan selville komennolla

 tei2snt < aamulehti/1999/12/al56838.xml | tr ' ' '\012' | egrep '^.$' | tr '\012' ' '
jonka tuloksena on lista:
  ? , . . ! ? , . ? . . ? , , . ? , . ? , . , . . ? . . , . - . 3 g . , 3 g . 
  , 4 g . 4 g . , 4 g . . 3 - 3 g . . 3 g . . 2 g . . 2 - 3 g . . 4 g . 
  v 8 v . . 3 g . 2 v . . 3 g . . 3 g . . 3 g . 7 v . , 3 g . 3 g . . 4 
  g . 3 v 2 v . , . 4 v . . 2 - 1 g . 3 g . 1 v 4 8 v . 2 - , 4 g . , 
  3 g . 4 v 3 v . , 3 g - . 8 v . 3 g . . 3 g . 6 v . . 2 g . . 3 g . 
  . 3 g . . 3 g - . 5 v 1 v 6 . , 3 g . , 3 g . , 3 g . 1 v 3 . . 2 - 
  3 g . 2 g . - . . . . . . . . . - . . . . . . . . . . . . . . . . . . . . . , 3 g . . 
Nämä lasketaan sanoiksi kun sanamäärä lasketaan muodosta, joka saadaa komennolla
tei2snt < aamulehti/1999/12/al56838.xml | head

Paljasjalkaset tamperelaiset ja muittem mukulat
Ottiko koville ?
Alku meni supsikkaasti ja tarmokkaasti eteenpäin , mutta kavala hyytymys iski loppusuoralla .
Sitten salaman vauhdilla tulikin räjähtävä alkuvoima avuksi .
Ah sitä autuutta sitten !
Onko se näköinen ?
Melkein mustatukkainen , oman näköisensä .
Mitä suku sanoi ?
Äidinäiti ei ollut pysyä housuissaan .
Tietenkin hirveästi kauheasti onnitteluja .

Mysteeriksi jää mistä johtuu 8:n sanan heitto ilmoitetun sanamäärän 1245 ja nyt lasketun sanamäärän 1237 välillä.

YHTEENVETO: Tutkijan kannalta turvallisinta on siirtää vastuu sanamäärästä aineiston kokoajille ja Kielipankille, joka ottaa viime kädessä vastuun mahdollisesta virheellisen tiedon välittämisestä. Ei voida olettaa että Lemmien varassa oleva tutkija suorittaa tarkistuslaskennan. Voit myös todeta että lauserakennetta osoittavat välimerkit ovat mitä ilmeisemmin näissä luvuissa laskettu sanoiksi. Yhteenkirjoitetut yhdyssanat ovat suomen teksteissä yleisesti laskettu kokonaisiksi sanoiksi, kun taas sanaliitot lasketaan osiensa mukaan. Tämän lisäksi on dokumentoimattomia pieniä eroja siinä mitä lasketaan sanoiksi.

Tutkijan on kiinnitettävä huomiota myös termien (teksti)sane, samuodon kirjoitusasu, sanatyyppi, sanamuoto, perusmuoto, lemma, yhdyssana ja sanavartalo väliseen suhteeseen. Tyhjentäviä määritelmiä en pysty nyt antamaan, mutta totean että sanamäärissä on kyse juuri saneista (word token) eli sanamuotojen esiintymistä, ks. http://www.ling.helsinki.fi/kit/term/intro.shtml.

Jos olet kiinnostunut, voit jatkaa keskustelua kommentoimalla tätä sivua:

 

Word Counts in the Official Finnish Bible of 1933/1938 and 1992

Etsiessäni sähköposteistani vastausta e.m. kysymykseen Q2 löysin seuraavan kokeen, joka koskee Kirkkoraamattujen sanamääriä. Sanamäärät on laskettu University of Helsinki Language Corpus Serverissä, joka on siirtymässä fyysisesti CSC:n koneelle.

Tein seuraavat ajot:

aylijyra@venus:/corp/bible/KRaamattu38$ cat 38-* | 
pc2ux |egrep -v '[A-Z][A-Z]|\|'|sh ../KRaamattu92/extract.words |
egrep -v '[0-9]'|egrep '.'|wc

 543282 543282 3895577

Näyte:
Alussa
loi
Jumala
taivaan
ja
maan
Ja
maa


aylijyra@venus:/corp/bible/KRaamattu92$ cat rk-* | egrep -v '^\$'|sh extract.words |egrep '.'
|wc
 509731 509731 3716280

Näyte siitä mitä laskettiin:
Alussa
Jumala
loi
taivaan
ja
maan
Maa
oli
autio
ja

Huomaa että otsikot ja välimerkit eivät ole mukana.

HelpdeskForm
HelpdeskProblemName What is counted as a word?
HelpdeskProblemAbstract What is counted as a word in Kielipankki text resources?

HelpdeskUrgency FullyResponded
HelpdeskNumberOfUsers 100
HelpdeskDateIssued 2006-01-01
Topic revision: r3 - 2006-08-28 - AnssiYliJyra
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback