CLT131: Tekstityökalut (Syksy 2010)

Tätä sivua voi käyttää yhteistyöhön ja muistiinpanojen tekemiseen, sekä kysymysten esittämiseen ja yleiseen keskusteluun, linkkien keruuseen jne. Kitwiki-aktiivisuudesta voi saada lisäpisteitä, jos tuntee että tehtävistä kerätty pistesaalis ei riitä haluttuun arvosanaan.

Luentomuistiinpanot

Tähän kuka tahansa voi kirjoittaa muistiinpanoja luennoista:

Ensimmäinen luento

Toinen luento

Laskuharjoitusmuistiinpanot

Tähän kuka tahansa voi kirjoittaa muistiinpanoja laskuharjoituksista:

Ensimmäiset laskuharjoitukset

  • vimillä voi laskea sanat näppäilemällä g Ctrl-g

Toiset laskuharjoitukset

Linkkejä

Kysymyksiä ja vastauksia

Lisätehtävä 4, 013751100

Tektityöklulla voidaan tehdä:

1.) lataa verkkosivu wget-työkalulla: wget http://www.example.org 2.) puhdista verkkosivumerkkausta sedillä: sed -r -e 's/<[^>]*>//g 3.) saneista siistitty verkkosivu: tr -s ' ' '\\n' 4.) katsoa tiedoston sisältöa: cat tiedosto 5.) hakea sanoja ohjehakemistoista: apropos owner | fgrep ’(1)’ 6.) vaihtaa tiedoston kodauksia: iconv -f latin1 -t utf8 < vanha > konvertoitu tai recode l1..u8 vanha 7.) vaihtaa rivinvaihoja: dos2unix rautatie.txt tai fromdos rautatie.txt 8.) ottaa tiedostosta vain tiety osa: tail -n +28 rautatie.txt | head -n 4314 9.) muuntaa välilyönnit rivivaihdoiksi: tr -s ’ ’ ’\n’ 10.) poistaa välimerkit: tr -d ’.,?!:;-’ 11.) analysoida saneja omorfin avulla: tail -n +28 rautatie.txt | head -n 4314 | tr -s ’ ’ ’\n’ | tr -d ’.,;!?-’ | omorfi-interactive.sh 12.) nimetä tiedosto uudelleen: mv pg12379.txt ylosnousemus.txt 13.) löytää tekstistä etunimiä: egrep ’\b(sanoi|epäili|kuuli)\b :upper::lower:*’ 14.) toteuttaa koko taivutusoppi sed-käskyilla: heikko vokaalivartalo→yksikön genetiivi sed -r -e ’s/si$/de/’ -e ’s/$/n/‘ konsonanttivartalo→yksikön partitiivi sed -r -e ’s/si$/t/’ -e ’s/$/tä/’ vahva vokaalivartalo→yksikön illatiivi sed -r -e ’s/si$/te/’ -e ’s/(.)$/\1\1n/‘ monikkovartalo→monikon partitiivi sed -r -e ’s/si$/s/’ -e ’s/$/iä/’ 15.) tutkia ekvatiivilauseiden “argumentteja”: sed -r -e ’s/(:alpha:*) on (:alpha:*)/\1,\2/’ 16.) laajentaa nimilistaa kollokaatiksi (viereiseksi saneeksi): egrep -o ’\b(:upper::lower:* (sanoi|epäili|kuuli))|((sanoi|epäili|kuuli) (:upper::lower:*)\b)’ 17.) tehdä frekvenssivilista: sort | uniq -c | sort -nr 18.) poimia rivin ensimmäinen luku: sed -r -e ’s/[ˆ[:digit:]]* ([+-]?:digit:+[.,]?:digit:*) /\1/’ 19.) purkea isot tiedostot: tar tiedosto 20.) poistaa kulmasosiot (xml merkkausta): sed -r -e ’s/<[ˆ>]*>//g’ europarl-fi/ep-00-01-17.txt 21.) tulostaa tekstin: cat tiedosto 22.) hakea tiedostosta säännöllisillä lausekkeilla ja ohjelmakoodilla: awk 23.) vaihda kieliasetuksia: locale 24.) saneista tekstia ja poistaa mielenkiinnottomia merkkejä: cat$@|tr-s’’’\n’|tr-d ’;?!@/\$<>[]’ → saneista.sh 25.) löytää virheitä omorfi analysin avulla: omorfi-analyse.sh | fgrep ’+?’ | less

Topic revision: r5 - 2011-03-03 - MalgorzataGwiazda
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback