Tilastollinen väri- ja nimikonstruktioanalyysi

John Galsworthyn teoksesta The Forsyte Saga

soames.jpg (Damian Lewis hahmona Soames Forsyte)

Tehnyt Eero Esimerkki X.X.20XX

Johdanto- ja esittelyosuus:

Mitä ja miksi tehdään:

Työn aiheena on pohtia sitä, kuinka Galsworthyn kirjoitustyyli muuttuu Forsytein taru -trilogian loppua kohti. Galsworthyn teksti kuvastaa englantilaisen kirjallisuuden tyyliä 1900-luvun alkupuolelta.

Hypoteesit ja esimerkkejä

Ensimmäinen hypoteettinen lähtökohta on, että rakenne "vanha Jolyon" ilmenee harvemmin tekstin lopussa kuin alkuosassa.

Toinen hypoteesi on, että J.G. käyttää DET (väri) N -rakennetta runsaammin teoksen loppupuolella. Tämä luultavasti johtuu kuvattuvien tapahtumien värittymisestä loppua kohden ja värien symboliikasta. smile Esimerkki tutkittavasta väri-ilmauksesta on: "that green door".

Lisäksi on kiintoisaa, esiintyvätkö nämä konstruktiot lauseen alussa vai eivät.

Aineisto on ladatuu project Gutenbergistä, ja analysoitu Connexorin FDG3-jäsentimellä, jolla POS-informaatio on laadittu syöteaineistoon.

Mittaus- ja tutkimusosuus:

Työssä käytetään R-ohjelmaa ja faktoriaalista ANOVA-analyysia (ks. wikipedia).

Aineisto luetaan R-ohjelmaan fdg3-ohjelman syötteestä jalostettuna taulukkona "forsyte.txt".

> read.table("R:/forsyte.txt",header=T)->f
> attach(f)

Aineiston käsittely

Työssä datasta laadittiin ikkunointimalli, jossa on kolme paikkaa: ensimmäinen on determineriä varten, toinen attribuuttia ja kolmas substantiivia varten. Näin valittiin, koska tarkasteltavat konstruktiot ovat

    w1   w2   w3
    --------------
    (DET) väri N
    *     old  "Jolyon"

Tarkasteltavat piirrevektorit muodostettiin loogisilla ehtolausekkeilla:

hahmonpit <- 3
i <- (1:(length(lemma)-hahmonpit+1))

cDetColorN<-  (pos[i]=="DET" &
            pos[i+2]=="N" & 
            (lemma[i+1]=="red" | lemma[i+1]=="green" | 
           lemma[i+1]=="yellow" | lemma[i+1]=="blue" | 
           lemma[i+1]=="brown") )
cOldJ<-    (lemma[i+1]=="old" & lemma[i+2]=="jolyon")

Perustetaan faktorit seuraavasti. Työssä oletetaan, että tekijät "teoksen loppupuolella" (luvun 44 jälkeen) ja "lauseen alussa" (substantiivin sanaindeksi pienempi kuin 4) vaikuttavat rakenteiden frekvenssiin.

fEnd       <- chp[i]>44
fSentBegin <- sidx[i+2]<4 

Aineiston analyysi

Tutkitaan "DET väri N" -konstruktiota esimerkkien avulla. Tutkitaan samalla missä kappaleessa konstruktiot esiintyvät.

which(cDetColorN)->ii
data.frame(word[ii],word[ii+1],word[ii+2],chp[ii])

   word.ii. word.ii...1. word.ii...2. chp.ii.
1         a        brown      holland       2
2       the        Green         Park       2
3         a       yellow         dust       4
4         a         blue   frock-coat      12
...
Värikkäitä ilmauksia nämä.

Tarkastellaan hypoteeseja lineaarimallilla ja tehdään faktorihypoteesin testaus ANOVA-testillä.

Hypoteesi 1: Vanha Jolyon painottuu testin alkupuolelle.


> summary(lm(cOldJ ~ fEnd * fSentBegin))

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)              1.310e-03  8.703e-05  15.055   <2e-16 ***
fEndTRUE                -1.163e-03  1.247e-04  -9.328   <2e-16 ***
fSentBeginTRUE           3.757e-03  2.163e-04  17.372   <2e-16 ***
fEndTRUE:fSentBeginTRUE -3.839e-03  2.974e-04 -12.911   <2e-16 ***

> summary(aov(cOldJ ~ fEnd * fSentBegin))
                    Df Sum Sq  Mean Sq F value    Pr(>F)    
fEnd                 1   0.26     0.26  249.63 < 2.2e-16 ***
fSentBegin           1   0.14     0.14  135.24 < 2.2e-16 ***
fEnd:fSentBegin      1   0.17     0.17  166.69 < 2.2e-16 ***
Residuals       321748 331.09 0.001029                      
---
Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 0.1 
Vanhaan Jolyoniin viitataan runsaammin teoksen alkupuolella. Tilastollisen merkitsevyyden valossa hypoteesi hyväksytään. Havaitaan myös tilastollisesti merkitsevä ristivaikutus: Kyseinen nimikonstruktio esiintyy myös tilastollisesti merkittävästi lauseen alussa teoksen alkupuolella.

Hypoteesi 2: Värikonstruktio painottuu tekstin loppupuolelle.


> summary(lm(cDetColorN ~ fEnd * fSentBegin))

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)              1.325e-04  3.449e-05   3.842 0.000122 ***
fEndTRUE                 1.077e-04  4.941e-05   2.179 0.029355 *  
fSentBeginTRUE          -9.439e-05  8.571e-05  -1.101 0.270758    
fEndTRUE:fSentBeginTRUE -8.031e-05  1.178e-04  -0.682 0.495500    


> summary(aov(cDetColorN ~ fEnd * fSentBegin))
                    Df    Sum Sq   Mean Sq F value  Pr(>F)  
fEnd                 1     0.001     0.001  3.9857 0.04589 *
fSentBegin           1     0.001     0.001  5.4166 0.01995 *
fEnd:fSentBegin      1 7.507e-05 7.507e-05  0.4646 0.49550  
Residuals       321748    51.990 1.616e-04                  
---
Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 0.1 

Tilastollisen merkitsevyyden valossa hypoteesi värikonstruktioiden painottumisesta tekstin loppupuolelle hyväksytään. Lauseen alulla ja teoksen loppupuolisuudella ei havaittu ristivaikutusta värikonstruktiossa.

Muuta tarkastelua

Tutkitaan graafisesti, miten "vanha Jolyon" -rakenne vähenee tekstin loppua kohden.
library(MASS)
truehist(chp[which(cOldJ)],h=1)
  • oldjolyon_chps.png:
    oldjolyon_chps.png

Tulosten tulkintaa ja pohdintaa

Selvästi maininnat vanhasta Jolyonista vähenevät, mutta koska kyseessä oli teoksen vahva symbolinen keskushamo, viittaukset eivät katoa tyystin teoksen lopussa. Tekstin värikonstruktioiden lisääntyminen tekstin loppupuolella johtunee tekstin laadun muuttumisesta kertovasta kuvailevaksi.

Lisäksi aineistoa tarkastellessa syntyi ideoita muistakin tutkittavista ilmiöistä, kuten hahmojen "Irene" ja "Fleur" tiheästä esiintymisestä tietyissä tekstinkappaleissa.

Lähteet

Aineisto ladattiin project Gutenbergistä. www.gutenberg.org:

  • Galsworthy, John, 1867-1933: The Forsyte Saga - Complete
    • The Man of Property -- Indian Summer of a Forsyte -- In Chancery -- Awakening -- To Let.

Työn tulokset laadittin R-ohjelmalla. (r-project.org)

Topic attachments
I Attachment Action Size Date Who Comment
PNGpng oldjolyon_chps.png manage 6.8 K 2009-12-18 - 10:20 UnknownUser  
JPEGjpg soames.jpg manage 2.4 K 2009-12-18 - 10:19 UnknownUser  
Topic revision: r1 - 2009-12-18 - SeppoNyrkko
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback