Korpusryhmät

(Pirkko, 26.8.2007):

Ryhmät on muodostettu yhdistämällä tietoa luvan antajasta, luvan saajasta ja luvan käyttöalueesta. Ryhmät on muodostettu Kimmo Koskenniemen kanss käydyn keskustelun perusteella. Testaan ryhmien toimivuutta korpuksiin. UHLCS: UNIX-ryhmät Pirkko Suihkonen (Luokkien perusteet ja ryhmien rakenteet pohjautuvat Kimmo Koskenniemen kanssa käytyyn keskusteluun)

Luvanantajat

Luvanantajat eli ne tahot, joilla on valtuus tai oikeus antaa lupia aineistojen käyttöön (ryhmässä esiintyvät lyhenteet: li, lik, lipr, ld):

 1. Yleisen kielitieteen laitos (li),
 2. Yleisen kielitieteen laitos tai Kotus, kumpikin erikseen (lik (k = Kotus)),
 3. Yleisen kielitieteen laitos: lisävaatimus: korpuksen omistajaa tai omistajan edustajaa on informoitava luvan hakijasta (ks. yhteyshenkilöt) (lipr (pr = permission)),
 4. Jokin muu laitos (ld) (laitokset erotetaan numeroin: 1 = slavistiikan ja baltologian laitos, 2 = Institutionen för nordiska språk och nordisk litteratur, 3 = Aasian ja Afrikan kielten ja kulttuurien laitos (tarvittaessa lisätään numeroita)).

Luvan saajat

Luvan saajat eli ryhmiä, joihin kuuluville luvanantaja valtuutuksensa puitteissa voi antaa lupia joko yksilöllisesti tai kollektiivisesti (ryhmässä esiintyvät lyhenteet: (a), (b), (c)) (ryhmä (b) sisältää ryhmän (a) ja ryhmä (c) sisältää ryhmän (b)); juokseva numerointi: Jonkin muu laitoksen tutkijat ja opettajat (laitokset erotetaan numeroin: 1 = slavistiikan ja baltologian laitos, 2 = Institutionen för nordiska språk och nordisk litteratur, 3 = Aasian ja Afrikan kielten ja kulttuurien laitos, tarvittaessa numeroita lisätään):

 • Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat ja opettajat (a),
 • Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat (b),
 • Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat sekä muut luvansaajat (c),
 • korpusten työstämiseen osallistuvat henkilöt (d),
 • muun laitoksen henkilökunta, laitoksen tutkijat ja opettajat (a1, a2, a3, jne. numero on sama kuin laitoksen numero kohdassa D),
 • jonkin muun laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat (b1, b2, b3, jne. numero on sama kuin laitoksen numero ryhmässä D).

Luvan oikeuttama käyttö

Luvan kattama käyttö (ryhmässä esiintyvät lyhenteet: 1, 2, 3, adm (ryhmästä adm ks. alla kohta V)):

 • Tutkimus (1 = research),
 • Tutkimus ja opetus (2 = research and teaching),
 • Tutkimus, opetus ja kieliteknologiset sovellukset (3 = research, teaching, and language technology).

I. (A) Yleisen kielitieteen laitos + (a) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat ja opettajat + luvan kattamat työalueet = Aa1, Aa2, Aa3: li-a1, li-a2, li-a3.

(A) Yleisen kielitieteen laitos + (b) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat ja opettajat ja opiskelijat + luvan kattamat työalueet = Ab1, Ab2, Ab3: li-b1, li-b2, li-b3.

(A) Yleisen kielitieteen laitos + (c) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat sekä muut luvansaajat + luvan kattamat työalueet = Ac1, Ac2, Ac3: li-c1, li-c2, li-c3.

II. (B) Yleisen kielitieteen laitos tai Kotus + (a) Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat ja opettajat + luvan kattamat työalueet = Ba1, Ba2, Ba3: lik-a1, lik-a2, lik-a3.

(B) Yleisen kielitieteen laitos tai Kotus + (b) Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat + luvan kattamat työalueet = Bb1, Bb2, Bb3: lik-b1, lik-b2, lik-b3.

(B) Yleisen kielitieteen laitos tai Kotus + (c) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat sekä muut luvansaajat + luvan kattamat työalueet = Bc1, Bc2, Bc3: li-kt-c1, lik-c2, lik-c3.

III. (C) Yleisen kielitieteen laitos: lisävaatimus: korpuksen omistajaa tai omistajan edustajaa on informoitava luvan hakijasta + (a) Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat ja opettajat + luvan kattamat työalueet = Ca1, Ca2, Ca3: lipr-a1, lipr-a2, lipr-a3.

(C) Yleisen kielitieteen laitos: lisävaatimus: korpuksen omistajaa tai omistajan edustajaa on informoitava luvan hakijasta + (b) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat + luvan kattamat työalueet = Cb1, Cb2, Cb3: lipr-b1, lipr-b2, lipr-b3.

(C) Yleisen kielitieteen laitos: lisävaatimus: korpuksen omistajaa tai omistajan edustajaa on informoitava luvan hakijasta + (c) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat sekä muut luvansaajat + luvan kattamat työalueet = Cc1, Cc2, Cc3: lipr-c1, lipr-c2, lipr-c3.

IV. (D) Jokin muu laitos + (a) Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat ja opettajat + luvan kattamat työalueet = Dna1, Dna2, Dna3: ld1-a1, ld1-a2, ld3-a3, ld2-a1, ld2-a2, ld3-a3, ld2-a1, ld3-a2, ld3-a3.

(D) Jokin muu laitos + (b) Yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat, ja opiskelijat + luvan kattamat työalueet = Dnb1, Dnb2, Dnb2: ld1-b1, ld1-b2, ld1-b3, ld2-b1, ld2-b2, ld2-b3, ld3-b1, ld3-b2, ld3-b3.

(D) Jokin muu laitos + (c) yleisen kielitieteen laitoksen henkilökunta, laitoksen tutkijat, opettajat ja opiskelijat sekä muut luvansaajat + luvan kattamat työalueet = Dnc1, Dnc2, Dnc3: ld1-c1, ld1-c2, ld1-c3, ld2-c1, ld2-c2, ld2-c3, ld3-c1, ld3-c2, ld3-c3.

(D) Jokin muu laitos + (c) ko. laitoksen henkilökunta, laitoksen tutkijat ja opettajat + luvan kattamat työalueet = Dna11, Dna12, Dna13, jne.:

ld1-a11, ld1-a12, ld1-a13, ld2-a11, ld2-a12, ld2-a13, ld3-a11, ld3-a12, ld3-a13,

ld1-a21, ld1-a22, ld1-a23; ld2-a21, ld2-a22, ld2-a23; . ld3-a21, ld3-a22, ld3-a23.

ld1-a31, ld1-a32, ld1-a33; ld2-a31, ld2-a32, ld2-a33; . ld3-a31, ld3-a32, ld3-a33.

V. Korpusten työstäminen (editointi, skirptit, jne.) (adm = henkilöt, jotka osallistuvat korpusten toimittamiseen ja hallintoon)

(A) Yleisen kielitieteen laitos + (d) korpusten työstämiseen osallistuvat henkilöt = A4, (B) Yleisen kielitieteen laitos tai Kotus + (d) korpusten työstämiseen osallistuvat henkilöt = B4, (C) Yleisen kielitieteen laitos: lisävaatimus: korpuksen omistajaa tai omistajan edustajaa on informoitava luvan hakijasta + (d) korpusten työstämiseen osallistuvat henkilöt = C4, (D) Jokin muu laitos + (d) korpusten työstämiseen osallistuvat henkilöt = Dn4: li-adm, lik-adm, lipr-adm, ld1-adm, ld2-adm, ld3-adm.

--++++ Huomautus 1, Ehdotus muutokseksi:

(Pirkko, 7. ja 9. joulukuuta 2007): Huomautus 1 koskee sitä, että ryhmä "lipr" antaa korpusten käyttäjälle mahdollisuuden käyttää kaikkia hakemistossa olevia, samaan ryhmään kuuluvia korpuksia. Tämä ei ollut ongelma aikaisemmin, koska käyttölupaa koskeva tiedustelu, joka on lähetetty korpusten omistajalle / omistajan edustajalle, on ollut ennen kaikkea tiedottava. Siinä tapauksessa, että ko. vastuuhenkilö ei olisi suositellut käyttöluvan hakijalle käyttölupaa, käyttölupaa ei olisi lainkaan myönnetty. Periaatteena on ollut, että on hyvä, että korpuksia käytetään, ja että jos joku on saanut korpusten käyttöluvan, hänellä on ollut oikeus perehtyä myös näihin korpuksiin. Joidenkin korpuksissa olevien kielten tutkijoita on vain muutama koko maailmassa, joten ei ole haittaa, jos aineistoihin tutustuvat myös muiden kielten tutkijat. Toiseksi muutamat korpukset ovat lähinnä fragmentteja (esim. liivi, mansi, kildininsaame), jolloin ne toimivat ennen kaikkea kielinäytteinä. Varsinaiseksi tutkimusmateriaaliksi tarvitaan laajempi aineisto. Tämä oli pohjana sillä, että myös näiden korpusten ryhmät laadittiin sen periaatteen mukaan, ketkä ovat käyttäjiä ja mikä on käytön tarkoitus.

Tilanne on nyt muuttunut jonkin verran, koska käyttölupa annetaan CSCLtä. Tämä ryhmä voidaan rakentaa myös siten, että aineistot ryhmitellään sen mukaan, kuka on luvanantaja. Tässä alla on uusi ehdotus ryhmittelyn perustaksi.

Olen numeroinut korpusten omistajat ja omistajien edustajat 01 - 21. Numerointi on juokseva ja myös henkilökohtainen: kun korpuksille tulee uusi luvanantaja tai luvanantajan edustaja, hänelle annetaan uusi numero. Luettelossa on nyt (7. joulukuuta 2007) seuraavat numeroidut korpusten vastuuhenkilöt tai omistajat ja hakemistot, joita vastuu koskee:

 • 01 (Dennis Estill):
  • /multilingual-data-bank/uralic-lgs/mordvin/erzya/historical-word-list/
  • /multilingual-data-bank/uralic-lgs/mordvin/moksha/historical-word-list/
 • 02 (André Hesselbäck:
  • /multilingual-data-bank/uralic-lgs/mari-lgs/west-mari/
  • /multilingual-data-bank/turkic-lgs/bolgar-group/chuvash
 • 05 (Paula Kokkonen):
  • /multilingual-data-bank/uralic-lgs/komi-lgs/komi-zyrian/
 • 06 (Olavi Korhonen):
  • /multilingual-data-bank/uralic-lgs/saami-lgs/ume-saami/
 • 07 (Manja Lehto):
  • /multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/ingrian/
 • 11 (Miikul Pahomov):
  • /multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/lude/
 • 12 (Jack Rueter):
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/dictionary
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/epos
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/journals
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/morphologically-tagged-corpora
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/New-Testament
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/novels
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/poetry
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/short-stories
  • /multilingual-data-bank/uralic-lgs/mordvin-lgs/moksha/novels/ */multilingual-data-bank/uralic-lgs/permic-lgs/komi-zyrian/
 • 13 (Tapani Salminen): */multilingual-data-bank/uralic-lgs/samoyedic-lgs/nenets/
 • 14 (Merja Salo): */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/atlym-dialect */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/kazym-dialect */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/konda-dialect */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/nizjam-dialect */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/obdorsk-dialect */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/rugin */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/synja-dialect
 • 15 (Irja Seurujärvi-Kari): */multilingual-data-bank/uralic-lgs/saami-lgs/north-saami/
 • 16 (Seppo Suhonen): */multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/livonian/suhonen/
 • 17 (Pirkko Suihkonen):
  • /multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/dvina-karelian/ */multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/livonian/Books-of-Children/ */multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/livvi/ */multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/vepsian/ */multilingual-data-bank/uralic-lgs/baltic-finnic-lgs/karelian/ */multilingual-data-bank/uralic-lgs/mari-lgs/western-mari/Books-of-Children/ */multilingual-data-bank/uralic-lgs/mari-lgs/western-mari/New-Testament/ */multilingual-data-bank/uralic-lgs/mari-lgs/eastern-mari/ */multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/Bible-of-Children/ */multilingual-data-bank/uralic-lgs/mordvin-lgs/erzya/New-Testament/ */multilingual-data-bank/uralic-lgs/mordvin-lgs/moksha/Books-of-Children */multilingual-data-bank/uralic-lgs/mordvin-lgs/moksha/New-Testament/ */multilingual-data-bank/uralic-lgs/permic-lgs/komi/permyak/ */multilingual-data-bank/uralic-lgs/permic-lgs/zyrian/Books-of-Children/ */multilingual-data-bank/uralic-lgs/permic-lgs/zyrian/New-Testament/ */multilingual-data-bank/uralic-lgs/permic-lgs/udmurt/ */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/khanty/Books-of-Children/ */multilingual-data-bank/uralic-lgs/ob-ugric-lgs/mansi/ */multilingual-data-bank/uralic-lgs/samoyedic-lgs/enets/ */multilingual-data-bank/uralic-lgs/samoyedic-lgs/kamas/ */multilingual-data-bank/uralic-lgs/samoyedic-lgs/nenets/New-Testament/ */multilingual-data-bank/chukotko-kamchatkan-lgs */multilingual-data-bank/mongolic-lgs */multilingual-data-bank/north-east-caucasian-lgs/ */multilingual-data-bank/quechuan-lgs/ */multilingual-data-bank/tungusic-lgs/ */multilingual-data-bank/turkic-lgs/north-turkic-lgs/ */multilingual-data-bank/turkic-lgs/north-west-turkic-lgs/ */multilingual-data-bank/turkic-lgs/south-east-turkic-lgs/ */multilingual-data-bank/turkic-lgs/south-west-turkic-lgs
 • 21 (Kerttu Vuolab): */multilingual-data-bank/uralic-lgs/saami-lgs/north-saami/vuolab/

Tässä ryhmittelyssä ei ole merkittävää se, kuuluuko luvanhakija henkilökuntaan, opiskelijoihin tai laitoksen piirin ulkopuolella oleviin. Korpuksia voidaan käyttää tutkimuksessa ja opetuksessa (= 2). Tällöin saadaan seuraavat ryhmät: lipr-012, lipr-022, lipr-052, lipr-062, lipr-072, lipr-112, lipr-122, lipr-132, lipr-142, lipr-152. lipr-162, lipr-172, ja lipr-212.

Haittana on, että ryhmiä tulee runsaasti, mutta ainakin tässä voidaan pitää eri aineistojen käyttäjät erillään. Ryhmiä voidaan vähentää, jos valitaan toiseksi muuttujaksi kieliperhe. Tällöin saadaan seuraavat ryhmät: uralilaiset kielet, turkkilaiset kielet, tunguusilaiskielet, monogolilaiskielet, ketshua-kielet ja indoeurooppalaiset kielet. Jos tämä otetaan ryhmän nimen lisämuuttujaksi, tarvitaan ryhmän nimeen vielä yksi kirjain tai numero lisää. Koska ryhmän nimessä saa olla vain kahdeksan merkkiä, ei merkkien määrää voi lisätä. Ainoaksi mahdollisuudeksi jää korvata tavuviiva kieliperhettä vastaavalla merkillä.

Luvut 03, 04, 08, 09, 10, 18, 19 ja 20 kuuluvat henkilöille, joiden hallinnoimat aineistot eivät ole hakemistossa /multilingual-data-bank, vaan ne ovat jossakin muussa hakemistossa.

 • 03 (Arvi Hurskainen):
  • /language-departments/niger-congo-lgs/benue-congo-lgs/bantu-lgs
 • 04 (Anu Airola):
  • /general-linguistics-kotus/uralic-lgs/baltic-finnic-lgs/finnish/ (tässä riittää Yleisen kielitieteen laitoksen korpusten vastuuhenkilön lupa)
 • 08 (Jan K. Lindström):
  • /language-departments/indo-european-lgs/germanic-lgs/swedish/
 • 09 (Kazuto Matsumura):
  • /multilingual-data-bank/uralic-lgs/baltic-lgs/viro-1/
 • 10 (Martti A. Nyman):
  • /general-linguistics/indo-european-lgs/latin
 • 18 (Maria Vilkuna):
  • /general-linguistics/uralic-lgs/baltic-finnic-lgs/viro-2/
 • 19 (Atro Voutilainen):
  • /general-linguistics/indo-european-lgs/germanic-lgs/english
 • 20 (Anssi Yli-Jyrä):
  • hakemisto /general-linguistics/indo-european-lgs/greek
  • hakemisto /general-linguistics/afro-asiatic-lgs/hebrew
  • hakemisto /general-linguistics/uralic-lgs/baltic-finnic-lgs/finnish/bible

-- PirkkoSuihkonen - 15 Jan 2008

Topic revision: r1 - 2008-01-15 - PirkkoSuihkonen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback