This web is for holding topics deemed as old or irrelevant for KitWiki. If you think the topic doesn't belong here, please check that it's named properly (is a WikiWord) and descriptively, contains relevant data, and is put back to a relevant web.

sfnet


The Sfnet corpus

Description

The Sfnet corpus is collected from a finnish new group area, sfnet. Sfnet is an administered Finnish usenet hierarchy. The sfnet newagroups generally exist for discussion in the Finnish language.

The corpus contains Finnish discussions from October 2002 to April 2003.

Home Page:

Version and Size

Version: Installed in June 2005.

Size: The corpus covers more than 100 news groups. The total number of words in the corpus is some 100 million.

Content and Structure

The Sfnet corpus contains the following five directories:

  • raw_texts/
  • parsed_texts/
  • scripts/
  • annotations/
  • posting_authors/

raw_texts/

Hakemistossa raw_texts uutisryhmät on jaettu alihakemistoihin yhdeksänluokkaisen pääjaottelun (sfnet.keskustelu.* -> keskustelu/, jne.) ja yhden kaatoluokan (misc/) mukaan.

Kunkin keskusteluryhmän osaaineisto koostuu yhdestä tekstitiedostosta, jossa on yhtenä pötkönä kaikki yksittäiset keskustelukontribuutioista (posting). Kukin kontribuutio alkaa vaihtelevan sisältöisellä otsakekentällä (Header), jonka avulla keskusteluryhmät voidaan osittaa kontribuutioihinsa. Ositettaessa tiedostoa yksittäisiin kontribuutioihin on huomioitava, että otsakekenttien ensimmäisen rivin nimi voi vaihdella, vaikkakin se yleisimmin on ' Path: ... '. On myös huomattava, että kontribuutiot sisältävät kirjoittajien uuden, oman tekstin lisäksi kaikki kirjoittajien sisällyttämät lainaukset toisista kontribuutioista sekä allekirjoitus- ym. kentät, joiden merkitsemiseen on käytetty useita eri notaatiota. Esimerkiksi lainaukset on yleisimmin merkitty yhdellä tai useamalla kulmasululla ' > [lainaus] ' tai ' > > [lainaus] ', mutta muitakin merkintätapoja esiintyy.

parsed_texts/

Hakemistosta parsed_texts löytyvät seuraavat viisi keskusteluryhmää, joka esiprosessoitu käyttäen prep-and-parse-sfnet-with-quotes -skriptiä ja lingvistisesti automaattisesti analysoitu käyttäen Connexorin fi-fdg -parseria:

  • sfnet.keskustelu.ihmissuhteet
  • sfnet.keskustelu.politiikka
  • sfnet.keskustelu.yhteiskunta
  • sfnet.keskustelu.evoluutio
  • sfnet.tiede.fysiikka

Näissä tiedostoissa on analysoitu paitsi kunkin kontribuution uusi teksti niin myös kontribuution sisältämät lainaukset. Kunkin kontrobuution eri osaset on merkitty seuraavasti:

BEGIN_ARTICLE
Yksittäisen kontribuution (posting) alku
END_ARTICLE
Yksittäisen kontribuution loppu
BEGIN_HEADER
Kontribuution otsakeosion alku
END_HEADER
Kontribuution otsakeosion loppu
BEGIN_BODY
Kontribuution varsinaisen viestitekstin alku
END_BODY
Kontribuution varsinaisen viestitekstin loppu
BEGIN_QUOTE_[STRING]
Lainauksen alku, missä STRING antaa lainauksen tunnusmerkkijonon ('>', '> >', ym.)
END_QUOTE_[STRING]
Lainauksen loppu, missä STRING antaa lainauksen tunnusmerkkijonon
BEGIN_TEXT
Lingvistisesti analysoidun osion alku
END_TEXT
Lingvistisesti analysoidun osion loppu
CITATION
Lainauslähde, esim. ' On 14 June 2006 Antti Arppe wrote: '
BEGIN_SIGNATURE
Allekirjoitusosion (signature) alku (jonka jälkeen ei oleteta enää löytyvän tekstiä)
BEGIN_HTML
Kontribuution html-muotoisen sisällön alku (kontribuutioissa, joissa on sekä teksti- että html-muotoinen sisältö)

scripts/

Hakemistossa scripts/ on kaksi skriptiä, joiden avulla raakatekstimuotoisia uutisryhmiä voidaan esiprosessoida ja parsata tai jälkikäteen ekstrahoida valittuja kontribuutioita ja näiden valittuja osasia.

prep-and-parse-sfnet-with-quotes
tunnistaa kontribuutioiden rajat raakatekstimuotoisesta tiedostosta, merkitsee kontribuutioiden eri osaset, ja lingvistisesti analysoi kontribuutioiden kielelliset osat.
post-process-sfnet
valitsee esiprosessoidusta ja lingvistisesti analysoidusta tiedostosta yksittäisiä kontribuutioita niiden uutisryhmäosoitusten mukaan (otsakkeen Newsgroups -kentän sisällön perusteella), sekä kustakin kontribuutiosta valitut osaset (lainausten kera tai ilman lainauksia). Tämän lisäksi lisää kussakin kontribuutiossa indeksi- ja tekijätagit. Tekijätagi otetaan oletusarvoisesti sellaisenaan From: -kentästä, ellei skriptille ole annettu posting-author tiedostoa, jossa on yhdistetty anonyymeihin kirjoittajanumerotunnuksiin saman kirjoittajan eri kontribuutioissa niiden From: -kentissä antamia internetosoitevariantteja (joista suurin osa on tarkoituksellisesti virheellisiä).

annotations/

Sisältää uutisryhmien sfnet.keskustelu.ihmissuhteet ja sfnet.keskustelu.politiikka osalta muutostiedostot, joissa on tarkistettu ja täydennetty neljän ajatella -verbin, ajatella, miettiä, pohtia ja harkita, sekä niitten argumenttien morfologiset ja syntaktiset analyysit sekä lisätty näiden verbien nominaalisille argumenteille WordNetin mukaiset semanttiset luokittelut.

posting_authors/

Sisältää uutisryhmien sfnet.keskustelu.ihmissuhteet ja sfnet.keskustelu.politiikka osalta tehdyn kirjoittajien internetosoitevarianttien yhdistelyn anonyymeihin kirjoittajanumerotunnuksiin, jota voidaan käyttää ym. post-process-sfnet -skriptin yhteydessä, esimerkiksi:

Tunnus-luku Kontribuutioiden lukumäärä =From:= -kenttä
42 39 Batcat <batcat@saunalahti.---------.-----.invalid>
42 115 Batcat <sisilia@sci.fi>

Directory in the Corpus Server

/l/kielipankki/sfnet

Directory Listing

dr-xr-x---   2 ling sktp-a 4096  9. kesä   23:35 annotations
dr-xr-x---   2 ling sktp-a 4096  9. kesä   23:23 parsed_texts
dr-xr-x---   2 ling sktp-a 4096  9. kesä   23:30 posting_authors
dr-xr-x---  11 ling sktp-a 4096  9. kesä   23:16 raw_texts
-r--------   1 ling sktp-a 2617 13. kesä   18:53 README
dr-xr-x---   2 ling sktp-a 4096  9. kesä   23:27 scripts

Sample

Access Rights and Conditions

This is available for research purposes only. The permission to use the material for research purposes is granted as a part of the SKTP-A permission and under the equivalent conditions of use. These conditions are included here:

Warning: Can't find topic KitWiki.Resource_sktp_ConditionsOfUseA

The Group of Unix Users Having Access to the Resource: sktp-a

References

Making Bibliographical Reference to the Material:

The sfnet corpus 2002 - 2003.

Other References

Release Notes and Details

Sending Bug Reports


To be copied to: https://wwwk.csc.fi/english/research/software/sfnet
To be seen at: http://www.csc.fi/english/research/software/sfnet
*See also other resources: in KitWiki, in www.csc.fi
All users may add their comments to Resource__Comments

When editing, please move cursor to the form below. Do not add anything here.
Topic revision: r9 - 2008-11-07 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback