Korpuslingvistiikan opetus ja korpusmenetelmien käyttö tutkimuksessa

Tähän on kerätty alustavaa materiaalia korpustutkimuksen opettamisesta ja menetelmien käytöstä tutkimuksessa. Tarkoitus on laajentaa ja täydentää tätä askelittain ja käyttää sitä pohjana yhteisesti kehiteltävien kurssien pohjaksi. Palaverissa 12.5.2010 päädyttiin siihen, että (1) kerätään kirja- ym. -materiaalia melko laajaa tarvitsijakuntaa esim. proseminaarivaiheen opiskelijoita varten ja että (2) kehitellään ja muovaillaan kieliteknologian perusopintojen ATK-taitoja käsitteleviä kursseja, esim. kieliaineiden kandi/maisterivaiheen opiskelijoille paremmin soveltuviksi. Kummassakin tapauksessa on kyse nykyistä suuremmista opiskelijamääristä.

(1) Johdatus korpuslingvistiikkaan

Kurssia ajateltiin melko laajalle kuulijakunnalle esim. proseminaarivaiheessa.

Kurssin sisältö ei ole riippuvainen muusta kuin ATK-ajokortin tapaisista yleistaidoista.

Ensimmäinen kontakti niihin mahdollisuuksiin, joita korpusten käyttö tarjoaa. Kurssin tarkoituksena olisi opastaa siihen, miten kielellisiä ongelmia voi ratkaista korpuksia ja vastaavia käyttämällä. Kurssilla käytettäisiin mieluiten olemassa olevia vapaasti käytettäviä aineistoja ja palveluita. Kurssimateriaali pyrittäisiin kokoamaan sellaisista kirjoista ja materiaaleista, jotka nekin ovat verkossa yliopistolaisille vapaasti saatavissa (FinELibin tms. kautta, elleivät ole avoimia).

(2) Tutkijan ja tutkijaksi aikovan korpuslingvistiikkaa

Suunnattu tutkijoille, tohtoriopiskelijoille ja tutkimukseen suuntautuville maisterivaiheen opiskelijoille.

Taitoja ja välineitä lingvististen ongelmien ratkaisuun käyttäen olemassa olevia korpuksia ja työkaluja. Tukea sopivien menetelmien löytämiseksi, valmiiden aineistojen paikallistamiseksi, ohjeita ja malliratkaisuja erityyppisille ongelmille.

(3) Korpusten tietojenkäsittelyn perustaidot

Tavoitteena on tarjota tutkimukseen suuntautuvalle opiskelijalle tai jatko-opiskelijalle taitoja, joilla hän voi hallita digitaalisessa muodossa olevia aineistoja esim. muokkaamalla tai muuntamalla niitä, poimimalla niistä esimerkkejä tms. Välineenä ovat Unixin peruskomennot ja niiden yhdistäminen sekä editoriohjelma (Emacs). Kurssi tai kurssit voisivat rakentua kieliteknologian perusopintojen kurssien pohjalle, jos nykyisiä kursseja voitaisiin kehittää kielentutkijoille vielä paremmin soveltuviksi.

Olemassa olevia kursseja, joita voisi käyttää pohjana:

 • 401051/ 402970 Kieliteknologian ATK-ympäristö (Clt130)
  Kieliteknologian nykyinen perusopintojen kurssi voitaisiin ehkä kehittää sellaiseksi, että se soveltuisi samalla myös laajemmalti kieliaineiden opiskelijoille. Kieliteknologian tutkintovaatimuksissa se on nyt pääaineeseen liittyvinä TVT-opintoina (2 op) ja sivuaineopiskelijoille perusopintojen kokonaisuuden osana.
 • 401052 Tekstityökalut (Clt131),
 • 401053 Verkkosivujen käsittely (Aikaisemmin: Rakenteiset dokumentit, Clt132),
  joilla opetetaan käsittelemään digitaalisessa muodossa olevia tekstiaineistoja. Tavoitteena on oppia laatimaan, korjailemaan ja hyödyntämään tekstiä sisältäviä korpuksia tekniseltä kannalta. (KK)

Taustatietoja (sekalaisessa järjestyksessä ja toimittamattomassa muodossa)

Kursseja

 • Pääaineeseen liittyvät tvt-opinnot (2op, aineopinnoissa proseminaarien yhteydessä). Satunnaisesti muilla kursseilla tarpeen mukaan muutaman luentokerran verran.
  Keskusteluntutkijoille ja sosiolingvisteille opetetaan tvt-opinnoissa äänitetyn ja videoidun aineiston käsittelyä ja litterointia. Litterointiohjelmana opetetaan tällä hetkellä Transanan ilmaista versiota ja tarvittaessa Express Scribea ja Praatia. (TS)
 • Integrumin käyttö opetetaan opiskelijoille seminaarissa kymmenessä minuuttissa ja sitten he alkavat tekemän harjoitustöitä. (AM)
 • Tällä hetkellä korpuslingvistiikkaa opetetaan syventävien opintojen kurssilla "Corpus Linguistic Methodology" (400579, Korpuslingvistiikka (ENG310c), 5 op), opettajana viime vuosina Jukka Tyrkkö. Lisäksi korpustutkimusta on esitelty vuonna 2006 erillisenä "Introduction to VARIENG research" kurssilla (Taavitsainen/Tyrkkö/Vartiainen).
  Metodologia-kurssin haasteena on tarjota samalla perustiedot korpuslingvistiikkaan vasta tutustuville ja syventäviä metodisia taitoja aihetta jo ennestään tunteville. Metodiikka-kurssin kannalta olisi eduksi jo korpuslingvistiikan perusteet tarjottaisiin jo perus- tai aineopintovaiheessa.
  Korpuslingvistiset teemat nousevat esiin myös muiden kurssien yhteydessä mainintoina korpustutkimuksen tuloksista ja mahdollisuuksista, korpusasiantuntijoiden vierailuina optiokurssien tunneilla, sekä pro-seminaari ja seminaarikursseilla aiheesta riippuen. Niinikään graduohjauksessa korpusmetodiikka nousee esiin tarvittaessa. Esim. lingvistiikan metodit-kurssilla korpustutkimusta on esitelty erilaisten tutkimuskysymysten lähtökohdista (Taavitsainen). Seminaarissa "Variation, Contacts, and Change" (Taavitsainen) korpuskysymykset tulevat esiin lukukauden aikana lähes joka tunnilla ja opiskelijoiden korpuslingvististen pro gradujen metodeissa. (JT,IT,AN)

Oppikirjoja ja muita oppimateriaaleja

 • Käytin aina monta eri kirjaa, sillä yhtä ainoaa hyvää ei ollut. Silti John Sinclairin "Reading Concordances" (2003) on yksi semmoinen lähde, joka ei ole ehkä monelle niin hirveän tuttu. Siinä on minusta paljon itua nimenomaan siihen, kun konkordanssirivejä pitäisi analysoida. Teos käy vähän puisevaksi pitkän päälle, kun sen harjoituksia on varsin paljon ja ne kuitenkin ovat tyypiltään samankaltaisia. Silti hyvä lähde nimenomaan analyyttisten taitojen pohjaksi. Hyvinkin näppärä yleistajuinen ja kattava oppikirjaesitys on myös Susan Hunstonin Corpora in Applied Linguistics (2002). Mutta sitäkään en ole yksinomaisena lähteenä käyttänyt edes perusteissa. Se on varteenotettava kun ajattelee, että me ehkä halutaan houkutella myøs opettajiksi ja kääntäjiksi valmistuvia korpustaitojen piiriin. Osia Tony McEneryn (Corpus Linguistics, Tony McEnery and Andrew Wilson, 1996), Biberin ja kumppaneiden (Corpus linguistics: investigating language structure and use, Douglas Biber, Susan Conrad, Randi Reppen, 1998), Geoffrey Barnbrookin (Language and computers: a practical introduction to the computer analysis of language, Barnbrook, G., 1996), Mike Stubbsin (Text and corpus analysis: computer-assisted studies of language and culture, Stubbs, M., 1996) ja monien muiden kirjoista olen käyttänyt menestyksellä. (AM)
 • Anke Lüdeling ja Merja Kytö, Handbook of corpus linguistics, Vol. 1+2, 2008, artikkeleita.
  Unix- ja Emacs-manuaaleja. (FK)
 • Baker, Paul. (2006) Using Corpora in Discourse Analysis. London: Continuum.
  Douglas Biber, Susan Conrad, Randi Reppen. (1998). Corpus Linguistics. Investigating Language Structure and Use. Cambridge: Cambridge University Press.
  Hoffmann, Sebastian, Evert, Stefan, Smith, Nicholas, Lee, David YW ja Berglund Prytz, Ylva. (2008). Corpus linguistics with BNCweb: A practical guide. Frankfurt am Main: Peter Lang.
  Anke Lüdeling ja Merja Kytö. (toim.) (2008). Corpus Linguistics: An International Handbook. Berlin ja New York: Mouton de Gruyter.
  Myer, Charles F. (2002). English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.
  Wynne, Martin. (toim.), Developing Linguistic Corpora: a Guide to Good Practice. http://ahds.ac.uk/creating/guides/linguistic-corpora/ (JT,IT,AN)
 • Quantitative Corpus Linguistics with R: A Practical Introduction. (Paperback) by Stefan Thomas Gries
 • Statistics for Linguistics with R: A Practical Introduction (Trends in Linguistics. Studies and Monographs) [Hardcover] Stefan Th. Gries.
  This book was not just written, it was designed--and well designed to teach readers about both corpus linguistics and the R statistics package. This electronic version allows busy readers with Kindles or iPhones to study productively during long commutes, even longer delays at the doctor's office, and endless unpunctuated speeches by boorish colleagues in staff meeting.
  The six chapters of Stephan Th. Gries' book unfold in an instructionally sound sequence. Chapter 1 briefly introduces corpus linguistics and directs readers elsewhere for a thorough treatment of its history and theories. The second chapter defines word frequency lists, word collocations, and concordances--three basic analysis tools of the discipline. Chapter 3 shifts focus and introduces the R software. This is an excellent and thorough coverage of R data manipulation, programming, and the text processing needed to analyze linguistic corpora.
  Building on this foundation, the book integrates R with linguistic analysis. Chapter 4 revisits word lists, collocations and concordances, teaching readers to implement these methods in R. Chapter 5 reviews the basics of statistical reasoning and introduces additional analysis techniques in R. Chapter 6 presents case studies and points readers to the book's supporting web site for associated data files and R syntax files.
  The book is considerate of the reader. It uses only freely-available, open source software such as R, the Tinn-R text editor, and OpenOffice Calc. Beyond the price of the book and access to a computer, the author intends no financial barriers to learning. The micro-design of the chapters is also reader-friendly. R code and output are clearly marked and helpfully annotated. Frequent "Think Breaks" in the chapters challenge readers to solve a small problem before reading the answer. This technique encourages active reading and produces a feeling of satisfaction as one progresses through each section. Chapters end with "For further study/exploration" sections that contain pointers to R documentation, web resources, and further reading.
  I recommend this book as a self-contained source about statistical methods in corpus linguistics as implemented in R. I would supplement it with Svenja Adolphs' Introducing Electronic Text Analysis to learn how the results of statistical analysis are used in applied linguistics and related disciplines.
 • Quantitative Methods In Linguistics by Keith Johnson.
  Although the book is really fast-paced and requires either prior knowledge of statistics or a companion statistics text for complete understanding, it does a fantastic job of applying the various statistical methods to real-life linguistic experiments and research. If you are conducting research in any field of linguistics and require stats for your data, this book is a must have. The R codes provided are super helpful because once you have the basis for the code, it's easy to transform it to meet your needs even with only a basic understanding of R. One caveat, though, is that because this is a first edition, there are several typos. Dr. Keith Johnson welcomes any comments about this and any other issues, and is approachable enough to respond to emails with questions about the text.
 • Introductory statistics with R. Peter Dalgaard. 2008 - 363 sivua. This book provides an elementary-level introduction to R, targeting both non-statistician scientists in various fields and students of statistics. The main mode of presentation is via code examples with liberal commenting of the code and the output, from the computational as well as the statistical viewpoint. A supplementary R package can be downloaded and contains the data sets." The statistical methodology includes statistical standard distributions, one- and two-sample tests with continuous data, regression analysis, one- and two-way analysis of variance, regression analysis, analysis of tabular data, and sample size calculations. In addition, the last six chapters contain introductions to multiple linear regression analysis, linear models in general, logistic regression, survival analysis, Poisson regression, and nonlinear regression.
 • Statistics: an introduction using R. Michael J. Crawley. John Wiley and Sons, 2005 - 327 sivua. Statistics: An Introduction Using R offers a concise introduction to statistical methods, stressing the graphical investigation of data, and features step-by-step instructions...
 • Using R for introductory statistics. John Verzani. Chapman & Hall/CRC, 2005. The cost of statistical computing software has precluded many universities from installing these valuable computational and analytical tools. R, a powerful open-source software package, was created in response to this issue. It has enjoyed explosive growth since its introduction, owing to its coherence, flexibility, and free availability. While it is a valuable tool for students who are first learning statistics, proper introductory materials are needed for its adoption.Using R for Introductory Statistics fills this gap in the literature, making the software accessible to the introductory student. The author presents a self-contained treatment of statistical topics and the intricacies of the R software. The pacing is such that students are able to master data manipulation and exploration before diving into more advanced statistical concepts. The book treats exploratory data analysis with more attention than is typical, includes a chapter on simulation, and provides a unified approach to linear models.This text lays the foundation for further study and development in statistics using R. Appendices cover installation, graphical user interfaces, and teaching with R, as well as information on writing functions and producing graphics. This is an ideal text for integrating the study of statistics with a powerful computational tool.

Korpuksia

 • FRANTEXT (UT)
 • Digitaalinen muoto-opin arkisto (http://www.helsinki.fi/hum/skl/tutkimus/ma.html)
  Keskusteluntutkimuksen arkisto (http://www.helsinki.fi/hum/skl/tutkimus/kesk_arkisto.htm)
 • Kielipankin tekstiaineistot (suurimmaksi osaksi Lemmie),
  Digitaalinen muoto-opin arkisto (Kielipankin käyttöliittymä),
  Kotuksen Kaino, käännöskorpukset jne.
  Puhuttu aineisto: Keskusteluntutkimuksen arkisto. (TS)
 • Olemme luoneet oman korpuksen HANCO. Se on hyvin pieni 100 000 juoksevaa sanaa. Se on kokeellinen korpus jonka puitteissa on selvitetty mahdollisuuksia tehdä tavallista monipuolisempia hakuja (syntaktiset piirteet, analyyttiset muodot). Se on myös venäjän kielen virheistä puhtain korpus (ambiguitettitapaukset, jotka ensn seulottiin automaattisesti, on tsekattu ihmisvoimin, toisin sanoen Petroskoin yliopiston opiskelijavoimin). Lisää HANCOsta: http://www.helsinki.fi/venaja/english/e-material/hanco/index.htm HANCOa on tehty projektirahan kylkiäsenä. Tällä hetkellä sitä ei laajenneta.
  Se lienee maailman suurin korpus, jos tätä sanaa voi tässä yhteydessä käyttää. Sanoja on yli 50 miljardia. Materiaali kattaa mm. 3000 lehden vuosikerrat 10-20 vuodelta. Aineisto ei ole taggattu mutta hakusysteemin on muuten monipuolinen. Olemme tehneet yli 10 julkaisua aineiston pohjalta ja graduja on syntynyt puolentusinaa ja lisää tulee. Tulossa on myös gradu jossa verrataan venäjän korpuksia ja korpusista saatuja tuloksia kielenpuhujien omaan käsitykseen kielen oikeellisuudesta. Meidän alkuvaiheen INTEGRUM-juttuja on kuvattu artikkelissa:
  http://www.helsinki.fi/~mustajok/pdf/Integrum_eng.pdf
  Jo vhän vanhentunut jutu suomeksi Integrumista:
  http://www.kansalliskirjasto.fi/extra/verkkonayttelyt/kirjatietoverkkojenmaailmassa/mustajoki_tulosta.html.
  Integrumiin mennään Nelli-portaalin kautta.
  Olen tekemässä anomusta hankkeelle Studies on Russian "frequency grammar", jossa on tarkoitus korpusten avulla lähestyä venäjän kieliopin keskeisiä kysymyksiä. (AM)
 • Brown, Lob, Språkbanken (Göteborg), BNC, CSC:n suomenkieliset korpukset .
  (kirjoitetun suomen) hkv-korpuksen käyttöönotto, laaja maahantulijasuomen puhuttu ProoF-korpus. (FK)
 • Perusteiden opettamisessa käytetään metodiikkakurssilla verkkokäyttöisiä yleiskorpuksia: British National Corpus eli BNCweb CQP-edition (laitoksen omalla virtuaalipalvelimella) sekä Corpus of Contemporary American English (COCA) ja Time Magazine corpus, jälkimmäiset Brigham Young Universityn palvelimelta (avoin käyttö). Lisäksi käytetään mm. Michigan Corpus of Academic Spoken English (MICASE) korpusta ja WebCorp verkkokorpus työkalua.
  Lukuvuonna 2009-2010 käytössä on ollut myös verkkokäyttöinen Sketch Engine/Corpus Architect, jonka tilaus loppuu kesäkuussa 2010. Lisenssi kattaa kolme korpus työkalua sekä n. 20 eri kielistä korpusta.
  Erillisinä korpustyökaluina suosisimme Word Smith Tools 5-pakettia, johon laitoksella on 50 asennuksen lisenssi. Ohjelmistoa ei kuitenkaan voimassa olevan lisenssisopimuksen mukaan voi asentaa yleisesti käytössä oleville työasemille (esim. Metsätalon tietokoneluokat), joten englannin laitoksen tietokoneluokan sulkemisen jälkeen Word Smith ei ole ollut opetuskäytössä. Sen tilalla on käytetty pääosin samat toiminnot kattavaa ilmaista AntConc:ia, jonka opiskelijat voivat myös ladata kotikoneilleen. Korpusopetuksessa tärkeää onkin että opiskelijoilla on mahdollisuus tehdä harjoitustöitä, kotitehtäviä, ja omia tutkimuksiaan myös kotona tai muualla yliopiston ulkopuolella.
  Korpuksina käytetään mm. ICAME CD-ROM:lta löytyviä korpuksia sekä muita Varieng-yksikön lisenssillä olevia korpuksia joiden lisenssi kattaa opetuskäytön (ICE, ICLE). Luvanvaraisia korpuksia ei voi sijoittaa pysyvästi Metsätalon tietokoneluokkiin ilman lisenssien tarkistamista. (JT,IT,AN)

Hankkeita

-- KimmoKoskenniemi - 2010-05-11

Topic revision: r10 - 2010-12-20 - KimmoKoskenniemi
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback