Puheen analyysin kurssityön ohjeet

  • 1) Malliaiheita
  • 2) Työraportin rakenne

Kurssi KPK322 (80 työtuntia, 3 op, syksy 2008) suoritetaan perehtymällä puheen analyysin käsitteisiin ja menetelmiin ja palauttamalla näihin perustuva kurssityö.

KPK322 Kurssitöiden malliaiheita

  • "oma vokaali"
  • "analyysi ja synteesi"
  • "analysoiva ohjelmointiprojekti"
    • Äänisignaalin esikäsittely analyysia varten
    • Analyysin automatisointi ja tulosten visualisointi
  • "referoiva kurssityö"
  • "oma ääntöväylä"

Tutkimusprojekti: Oma vokaali

Tutkitaan ääninäytteistä saman äänteen spektrejä erilaisissa sanoissa. Pyritään kartoittamaan ominaiset spektrikuviot ja formanttien sijainnit eri näytteissä. Tehdään mittauksista R-ohjelmalla analyysi.

Raportissa kuvataan

  • aineisto
  • tutkimuksessa käytetyt menetelmät,
  • niihin liittyvät käsitteet
  • aineiston mitat ja sitä koskevat mahdolliset hypoteesit
  • sekä näytteitä mallilaskuista ja tuloksista.
  • (mahdollisesti myös johtopäätöksiä ja artikkeliviitteitä)

Analyysi ja synteesi -kurssiprojekti:

Tutkitaan artikkelia: Dan Chazan, Ron Hoory, Gilad Cohen, and Meir Zibulski, Speech reconstruction from mel frequency cepstral coefficients and pitch, in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2000

Raportissa

  • esitellään artikkelin ydinaihe, kokeen tavoitteet ja päätelmät
  • kuvataan aiheen olennaiset käsitteet ja menetelmät
  • esitellään omat laskutoimitukset, yksinkertaistettujen esimerkkien avulla
    • Äänen analyysi spektri- ja/tai kepstrikomponenteiksi
    • Äänen (signaalin) tuotto vastaavista komponenteista

Python- tai R-kurssiprojekti: Äänenkäsittelyn funktioita

Aiemmilla vuosilla tällä kurssilla on kehitetty Colemanin kirjan ohjelmaesimerkkien mukaisia python-funktioita, mm. DCT-muunnokseen, spektrin, kepstrin ja F0-autokorrelaatioanalyysin laskemiseen. (https://kitwiki.csc.fi/twiki/pub/KitWiki/HyKpk322s2007PuheenAnalyysi/python-puheanalyysi.tar.bz2 )

Voit kehittää aiemmin kpk322-kurssilla kehitettyjä (linkki yläpuolella) funktioita tai luoda kirjan esimerkkien perusteella vastaavia uusia toteutuksia.

Ohjelmointikielenä voit käyttää esim. Pythonia, C:tä tai R:ää.

Mahdollisia uusia toteutettavia toimintoja voi olla: ylipäästö- ja alipäästösuodatus, erilaiset ikkunointimenetelmät, näytteistystaajuuden muunnos. Voit myös rakentaa "mukavuusfunktioita" esim. wav- tai mp3-tiedostojen lukemiseksi analyysia varten.

Kurssityön palautettavassa raportissa tulisi esittää

  • työn tavoitteet
  • kehitettyjen algoritmien toimintaperiaate
  • ajoesimerkkejä
  • työn tarkastelua: rajoitukset datalle, suorituskyky
  • mahdollisia havaintoja omasta aineistosta

Äänisignaalin esikäsittely R:ssä analyysia varten

  • eri ikkunointifunktiot
  • näytteiden automaattinen valinta

Analyysin automatisointi ja tulosten visualisointi R:ssä

  • F0-kontuurin löytäminen
  • spektrogrammin laskeminen

Referoiva kurssityö

Referoivassa kurssityössä valitaan useampia artikkeleita, jotka käsittelevät esim. puheen tai puhujan tunnistuksen tai synteesin ongelmia. (Spektrin ja kepstrin laskeminen, Fourier-muunnokset, autokorrelaatio, logaritmiset asteikot).

Raportissa kuvataan artikkeleiden ongelmakenttää sekä käsitellään artikkeleissa esitettyjä havaintoja ja pohdintaa.

Lähteitä voi etsiä mm. Google Scholarilla:

Oma "ääntöväylä"

Oman ääntöväylän -- myös kaikukopan, puhetorven, suorakulmaisen huoneen, tms -- voi mallintaa äärellisvasteisena (FIR) akustisena suotimena. Akustisille suotimille on yleisessä tapauksessa määriteltävissä niille ominainen impulssivaste, jolla voidaan mallintaa suodatuksen vaikutus mille tahansa syötesignaalille.

Tässä kurssityössä:

  • Tarkastellaan jotakin akustista suodinta ja mietitään äänen käyttäytymistä siinä
  • Laaditaan FIR-suotimen impulssivasteen signaali (tai sen yksinkertaistettu malli)
  • Tarkastellaan suotimen taajuusvastetta (spektriä).
  • Valitaan ääninäyte ("pörinä", kohina, puhe, laulu, musiikki), joka suodatetaan kyseisen mallin läpi (ks. R:n convolve ja filter).
  • Tuloksia tarkastellaan omin korvin ja signaalina kurssin työkaluilla (spektri).
  • Vinkki: joidenkin suotimien (kuten kitaran kopan) impulssivasteet voidaan nauhoittaa äänenä suotimesta.

Kurssityön raportin rakenne (ohjeellinen)

  • "Sanasto" - käsitteitä ja kuvauksia
    • 4-10 sivua, oppimispäiväkirjan tapaisesti
    • lyhyitä merkintöjä puheen analyysin käsitteistä
    • omien muistiinpanojen, kirjan tekstin ja verkkolähteiden pohjalta
    • pyri vastaamaan kysymyksiin: mitä, miksi, miten
  • "Analyysi" - oman tutkimuksen tai artikkelireferaatin osuus
    • 6-10 sivua, tutkielmaesseen tapaan
    • aiheen esittely
    • aineisto ja hypoteesit
    • menetelmät
    • tuloksia
    • yhteenveto
  • Viitteet, yms
    • Lähteet
    • Liitteet
    • Lisää tuloksia
    • Ohjelmakoodeja
Topic revision: r5 - 2008-12-16 - SeppoNyrkko
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback