This web is for holding topics deemed as old or irrelevant for KitWiki. If you think the topic doesn't belong here, please check that it's named properly (is a WikiWord) and descriptively, contains relevant data, and is put back to a relevant web.

ftc


Finnish Text Collection

Description

The Finnish Language Text Collection (Suomen kielen tekstikokoelma) is a selection of electronic research material that contains written Finnish from 1990's. The collection has been gathered by

  • The Research Institute for the Languages in Finland
  • The Department of General Linguistics of the University of Helsinki
  • The Foreign Languages Department of the University of Joensuu

Orginally, the structure of texts was marked up with SGML, according to the TEI recommendations. Each document contained two parts:

  • a TEI header, containing metadata on the document
  • the body

In the body, the following elements were annotated:

  • main division corresponding to chapters or similar (
    ...
    )
  • headings ( ... )
  • paragraphs (

    ...

    ).

The Finnish Text Collection is currently available only as an XML encoded version, as well as in the Lemmie corpus tool, where it is has been used most widely so far. The DTD for the XML version is located in /usr/lib/sgml/dtd/sktpxml.dtd.

Home Page:

Version and Size

Version: sktp-a-version/parole-fi + laajennus

Size: The latext version of the Finnish Text Collection covers 97 subcollections, 650 thousand (645 274) documents ja 180 million (179 556 341) running text tokens.

Content and Structure

Warning: Can't find topic Old.Resource_ftc_Files

Directory in the Corpus Server

/l/kielipankki/ftc/

Directory Listing

aamulehti -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/aamulehti
demari -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/demari
edita -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/edita
eduskunta -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/eduskunta
hameensanomat -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/hameensanomat
helsinginsanomat -> /l/kielipankki/sktp-laajennus/latest/a-lic/fin/helsinginsanomat
hy -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/hy
hyvinkaansanomat -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/hyvinkaansanomat
iltalehti -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/iltalehti
kaleva -> /l/kielipankki/sktp-laajennus/latest/a-lic/fin/kaleva
kangasalansanomat -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/kangasalansanomat
karjalainen -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/karjalainen
kauppalehti -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/kauppalehti
keskisuomalainen -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/keskisuomalainen
optio -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/optio
otava-a -> /l/kielipankki/sktp-laajennus/latest/a-lic/fin/otava-a
otava-b -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/otava-b
painatuskeskus -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/painatuskeskus
pienkustantajat -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/pienkustantajat
SKS -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/SKS
suomenkuvalehti -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/suomenkuvalehti
tm -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/tm
turunsanomat -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/turunsanomat
ulkoministeriö -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/ulkoministeriö
wsoy -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/wsoy
wsoy-a -> /l/kielipankki/sktp-laajennus/latest/a-lic/fin/wsoy-a
wsoy-b -> /l/kielipankki/sktp-laajennus/latest/b-lic/fin/wsoy-b
yliopistopaino -> /l/kielipankki/sktp-laajennus/latest/a-lic/fin/yliopistopaino

Sample

Access Rights and Conditions

The teksti Collections are stored to two sub directories:

  • /l/kielipankki/teksti/latest/a-lic
  • /l/kielipankki/teksti/latest/b-lic

The use of these directories and the contained material needs access rights that are given to the users.

  • The B-License subsumes permissions of the A-License, i.e. academic researchers bound to the A-license can use both those texts that are covered by the B-license and those texts that are covered under the A-License.
  • If the user has been given the access rights for academic research, he works under the A-License and can access both A and B texts. Any resulting language technology based on such reasearch will not be available to any commercial or open-source purposes.
  • Otherwise, if the user is interested in developing commercial or open-source language technology, he or she should utilize B-texts only. The user will utilize the B-texts under the conditions of the B-license.

The majority of the text in the collection are covered by the B-License, which is newer than the A-license.

The Group of Unix Users Having Access to the Resource: sktp-a
sktp-b

References

Making Bibliographical Reference to the Material:

The subcollections are referred to as follows:

  • Specify the name of the used subcollection, or, if you have gathered your Own Corpus based on the documents that your have picked from several subcollections, specify the names of every subcollection from which you have gathered your Own Corpus.
  • Give a short description of the corpus, giving information on the language and the total word count of the corpus.
  • Mention all the institutions that are responsible for the collection the corpora you are using.
  • Describe the method you have used to access the corpus, e.g. by mentioning the address http://www.csc.fi/kielipankki/.

An example

Karjalainen 1998. An electronic document collection of the Finnish language containing 6 million words. Gatherers: The Department of General Linguistics, University of Hensinki; The University of Joensuu; CSC - Scientific Computing Ltd. Available through CSC, http://www.csc.fi/.

Further Issues
  • If you have used the Lemmie software for obtaining the research results, remember to mention about it in the research reports and related publications.
  • Remember that the morphological analysis of texts has not been checked manually. The automatically assigned grammatical codes contain many errors.
  • Remember to check also the list for bugs.

Note that the texts were received from the respective publishers in large bunches. Therefore, it was not feasible to compare the received material against the actually published versions. It is probable that a yearly collection of documents in the Finnish Text Collection does not contain exactly the same set of documents than a printed volume of a journal or newspaper.

The abbreviation SKTP is now deprecated. The only correct use of SKTP is in "SKTP A-Version" (in Finnish, "Suomen kielen tekstipankki, A-versio") that is, in practice, equivalent to the Finnish PAROLE Corpus.

Other References

Release Notes and Details

demari/1997/ Osassa kokoelman dokumenteista on ääkköset virheellisesti koodattu.
demari/1998/ Osassa kokoelman dokumenteista on ääkköset virheellisesti koodattu.
demari/1999/ Osassa kokoelman dokumenteista on ääkköset virheellisesti koodattu.
demari/2000/ Osassa kokoelman dokumenteista on ääkköset virheellisesti koodattu.
edita/1995/ Suomen säädöskokoelma. Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
edita/1996/ "Kielen kannoilla - Kotimaisten kielten tutkimuskeskus 20 vuotta" (Ritva-Liisa Pitkänen, Helena Suni, Satu Tanner). Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
eduskunta/1992/ Sopimus Euroopan unionista ja Euroopan yhteisön perustamissopimus. Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
helsinginsanomat/1990/ Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
helsinginsanomat/1995/ Osakorpus tagattu Textmorfolla ja viety Lemmie-järjestelmään Hesarin osastokoodien mukaan pilkottuna. Teknisen syyn vuoksi sana- ja dokumenttimäärät laitettu 0:ksi. Vuosikerran oikea koko on 102 842 dokumenttia, 22 110 300 sanetta.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa AE-merkinnällä olevat artikkelit vuodelta 1995, suurelta osin ruoka- ja tiedeartikkeleita. Artikkelit ovat julkaistu lehden D-osassa.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa AK-merkinnällä olevat artikkelit vuodelta 1995, suurelta osin sääraportteja ja vapaa-ajan artikkeleita. Julkaistu A-, B- ja C-osissa.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa ET-merkinnällä olevat artikkelit vuodelta 1995, suurelta osin sivun A3 "tuoreita" uutisia.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa HU-merkinnällä olevat artikkelit vuodelta 1995, suurelta osin julkaistu sivulla A4, henkilöuutisia, tänään, esim. nekrologit, "50 vuotta sitten" jne.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa KA-merkinnällä olevat artikkelit vuodelta 1995, kaupunkiuutisia pääosin julkaistu sivulla B1-B4.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa KN-merkinnällä olevat artikkelit vuodelta 1995, pääosin julkaistu sivulla B3, Uusimaa.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa KU-merkinnällä olevat artikkelit vuodelta 1995, "Kulttuuri", pääosin julkaistu lehden C-osassa.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa MA- ja ME-merkinnöillä olevat artikkelit vuodelta 1995, pääosin pääkirjoituksia.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa MP-merkinnällä olevat artikkelit vuodelta 1995, "Mielipide"-kirjoituksia.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa NH-merkinnällä olevat artikkelit vuodelta 1995.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa PO-merkinnällä olevat artikkelit vuodelta 1995, "Politiikka".
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa RO-merkinnällä olevat artikkelit vuodelta 1995, "TV-ohjelmasivu", D1.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa RT-merkinnällä olevat artikkelit vuodelta 1995, "Radio-TV".
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa SP-merkinnällä olevat artikkelit vuodelta 1995, "Urheilu", suurelta osin sivulta C1.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa ST-merkinnällä olevat artikkelit vuodelta 19suurilta osin urheilutaulukkoja jne.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa TA- ja TE-merkinnöillä olevia artikkeleita vuodelta 1995, "Talous", julkaistu suurilta osin B-osassa
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa TR-merkinnällä olevat artikkelit vuodelta 1995, "Talouden erikoissivut (sunnuntai)", iso osa taulukoita.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa UL-merkinnällä olevat artikkelit vuodelta 1995, "Ulkomaat", suurelta osin C-osan artikkeleita.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa VK-merkinnällä olevat artikkelit vuodelta 1995.
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa VS-merkinnällä olevat artikkelit vuodelta 1995, "Sunnuntai".
helsinginsanomat/1995/ Sisältää Helsingin Sanomien arkistossa YO-merkinnällä olevat artikkelit vuodelta 1995, "Kotimaa", pääosin A-osan tekstejä.
helsinginsanomat/1995/ Sisältää sekalaisia Helsingin Sanomien arkistossa olevia artikkeleita vuodelta 1995.
helsinginsanomat/1996/ Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
helsinginsanomat/1997/ Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
hy/1995/ Helsingin yliopiston julkaisema Yliopisto-lehti. Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
hy/1996/ Helsingin yliopiston julkaisema Yliopisto-lehti. Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
hy/1997/ Helsingin yliopiston julkaisema Yliopisto-lehti. Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
kaleva/1996/ Ei toistaiseksi morfosyntaktisesti tagattu, eikä Lemmiessä käytettävissä.
kangasalansanomat/ Julkaisuajankohdat ei ole tiedossa.
karjalainen/unspec/ Joukko Karjalaisen artikkeleita, joissa ei ole julkaisupäivämäärämerkintää.
otava/1993/ Kokoelman aino tiedosto on Lemmiessä pilkottu kahdeksaksi dokumentiksi. Yksi dokumentti vastaa yhtä XML-tiedoston -elementtiä.
otava/1994/ Matti Yrjänä Joensuu: "Harjunpää ja rakkauden nälkä" (ISBN 951-643-439-8), Jouko Turkka: "Häpeä" (ISBN 951-1-12786-1)
otava/1995/ Pirkko Aitoaho: "Kolmekymmentä senttiä on pitkä aika" (ISBN 951-1-13976-2), Helena Anhava: "Eihän elämälle mitään voi" (ISBN 951-1-12390-4), Martti Lindqvist: "Mieli vai tarkoitus" (ISBN 951-1-13945-2), Sari Malkamäki: "Yöpäivystäjä" (ISBN 951-1-13971-1), Helinä Siikala: "Ystäväni minä" (ISBN 951-1-13435-3)
otava/1996/ Pirjo Hassinen: "Voimanaiset" (ISBN 951-1-13573-2), Laila Hietamies: "Myrskypilvet" (ISBN 951-643-477-0), Olli Jalonen: "Kenen kuvasta kerrot" (ISBN 951-1-14394-8), Hannu Mäkelä: "Katso, se päivä on tuleva" (ISBN 951-1-13674-7), Heimo Susi: "Virkamatka" (ISBN 951-1-14343-3)
otava/1997/ Elsa Anttila: "Helmiä Mallorcalta" (ISBN 951-1-14709-9), Anna-Maija Elonen: "Selviytyjätyyppi" (ISBN 951-1-14388-3), Liisa Hännikäinen: "Onneksi" (ISBN 951-1-14784-6), Vesa Häyrinen: "Tapaus pyöräilijä" (ISBN 951-1-15116-9), Heikki Hietamies: "Sydän toivoa täynnä" (ISBN 951-1-14999-7), Tuija Lehtinen: "Samppanjataivas" (ISBN 951-1-14667-X), Reijo Mäki: "Pimeyden tango" (ISBN 951-1-14985-7), Outi Pakkanen: "Kuolema käy jatkoilla" (ISBN 951-1-15000-6), Sirpa Tabet: "Hämärän lapset" (ISBN 951-1-15023-5), Vuokko Tolonen: "Tampereen ilmasto" (ISBN: 951-1-12398-X), Antti Tuuri: "Lakeuden kutsu" (ISBN 951-1-14438-3)
otava/1998/ Mikko Juva: "Aika etsiä ja aika löytää: Sukuni vaiheita sadan vuoden ajalta" (ISBN 951-1-15515-6), Anna-Leena Härkönen: "Avoimien ovien päivä" (ISBN 951-1-15015-4), Tapani Harviainen & Karl-Johan Illman (ed.): "Juutalainen kulttuuri" (ISBN 951-1-13313-6), Juhani Suomi: "Liennytyksen akanvirrassa: Urho Kekkonen 1972-1976" (ISBN 951-1-14799-4), Simo Frangén, Pasi Heikura & Jyrki Liikka: "Alivaltiosihteeri : nuoret viralliset miehet", Hannu Mäkelä: "Pelin henki : Love/40 - Erään ottelun tarina" (ISBN 951-1-15487-7), Tuija Lehtinen: "Sara@crazymail.com" (ISBN 951-1-15535-0), Timo Vihavainen: "Stalin ja suomalaiset" (ISBN 951-1-13075-7), Mikko Salmela: "Suomalaisen kulttuurifilosofian vuosisata" (ISBN 951-1-15356-0), Anna-Liisa Suni: "Tassuterapeutti: koirista ja vähän muistakin eläimistä" (ISBN: 951-1-15353-6), Pirkko-Liisa Perttula: "Tytöt: Käsikirja kiinnostuneille" (ISBN 951-1-15256-4), Nora Schuurman: "Vahinkorakkaus" (ISBN 951-1-15566-0), Pekka Suhonen: "Yöllä he menivät uimaan ja muita kirjoituksia" (ISBN 951-1-15677-2)
otava/1999/ Olli Lehto: "Ei Yliopiston voittanutta" (ISBN 951-1-16081-8), Kai Laitinen: "Kirjojen Virrassa: Tutkielma ja esseitä kirjallisuudesta ja lukemisesta" (ISBN 951-1-16304-3), Timo Airaksinen: "Minuuden rakentajat: filosofinen kirja ihmisestä" (ISBN 951-1-16048-6), Anja Snellman: "Paratiisin kartta: romaani" (ISBN 951-1-16106-7), Juha Siltala: "Valkoisen äidin pojat: Siveellisyys ja sen varjot kansallisessa projektissa" (ISBN 951-1-14738-2), Kalle Holmberg: "Vasen suora" (ISBN 951-1-15722-1), Olli Jalonen: "Yksityiset tähtitaivaat" (ISBN 951-1-15953-4)
painatuskeskus/1995/ Maija Länsimäki (ed.): "Sana kiertää - Kirjoituksia Suomen kielestä" (ISBN 951-37-1649-X)
pienkustantajat Tuomas Santasalo & Katja Kontio: "Vähittäiskauppa Suomessa 1998" (ISBN 951-9409-60-2)
SKS/1995/ Erkki Lyytikäinen: "Bikinirajaus - Näkökulmia kieleen" (ISBN 951-717-880-8)
tm/1995/ Lemmiessä Tekniikan Maailma vuosikerrat 1995-1997 on yksi korpus, jonka tunniste on tm1995_1997.
tm/1996/ Lemmiessä Tekniikan Maailma vuosikerrat 1995-1997 on yksi korpus, jonka tunniste on tm1995_1997.
tm/1997/ Lemmiessä Tekniikan Maailma vuosikerrat 1995-1997 on yksi korpus, jonka tunniste on tm1995_1997.

Sending Bug Reports


To be copied to: https://wwwk.csc.fi/english/research/software/ftc
To be seen at: http://www.csc.fi/english/research/software/ftc
*See also other resources: in KitWiki, in www.csc.fi
All users may add their comments to Resource__Comments

When editing, please move cursor to the form below. Do not add anything here.
Topic revision: r21 - 2008-11-07 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback