Tapaus 3. Puhesynteesin hyödyntäminen junakuulutuksissa



Tehtävää ja selvitettävää

MOS ja HINT: millaisista evaluointimetriikoista on kysymys?
MOS (Mean Opinion Score/Scale) on evaluointimenetelmä, jossa koehenkilöllä kuuntelutetaan puhesynteesinäytteitä ja pyydetään häntä arvioimaan kuulemaansa. Koehenkilön tulisi kuunnellessaan antaa oma arvionsa useista puhesynteesin laadullisista asioista, kuten miellyttävyydestä, selkeydestä, luonnollisuudesta tai yleisvaikutelmasta. Arviointiskaala on periaatteessa 1-5, mutta usein koehenkilöä voidaan pyytää antamaan vastaavia sanallisia arvioita, jotka jälkeenpäin muutetaan vastaaviksi numeroiksi. Apuna käytetään referenssilauseita, ns. ankkureita, joista ensimmäinen on luokkaa 1 ja toinen luokkaa 5 käytetyllä arviointiasteikolla. Näihin verraten koehenkilön tulisi sitten antaa oma arvosanansa kolmannelle kuulemalleen lauseelle kulloinkin testattavaan laadulliseen asiaan liittyen. Testin jälkeen koehenkilöiden antamista arvosanoista lasketaan keskiarvo.

HINT (Hearing In Noise Test) mittaa henkilön kykyä kuulla puhesynteesin tms. tuottamaa ääntä kohinassa. Testiin osallistuvalle koehenkilölle annettiin materiaaliin kuuluvassa gradussa 16 listaa lauseita, jotka koehenkilö kuuli voimakkuudeltaan vaihtelevan taustakohinan säestämänä. Kuultuaan lauseet koehenkilön piti kirjoittaa ne niin hyvin kuin pystyi. Puheen ja taustakohinan voimakkuutta muutetaan testin aikana; gradussa suoritetussa testissä kohinan voimakkuus oli aluksi 0 dB ja varsinaisen puheen 10 dB. Koehenkilön vastaukset kirjoitettaan muistiin. Testituloksista lasketaan ns. signal-to-noise ratio (SNR), eli se, kuinka paljon taustahäly vaikuttaa puhesynteesin tuotoksen kuulemiseen. Tämä arvo voi olla erilainen eri synteesijärjestelmillä.

Eri järjestelmien oleellisimmat erot
Mitä haittaa siitä, että järjestelmää on helppo ymmärtää kohinassa, voi olla, ja missä olosuhteissa?

Gradun sivu 59: (...) a question about if the parametric synthesizer (BitLips) overdoes the speech: the shaped formants are well perceptible in noise, but become unnatural and thus not preferred in absence of noise.

Entäs jos kohinattomissa olosuhteissa puhesignaaliin lisättäisiin kohinaa..?

Puhesynteesin automaattiset evaluointimenetelmät
Some objective methods, such as Articulation Index (AI) or Speech Transmission Index (STI), have been developed to evaluate speech quality (Pols et al. 1992). These methods may be used when the synthesized speech is used through some transmission channel, but they are not suitable for evaluating speech synthesis in general. This is because there is no unique or best reference and with a TTS system, not only the acoustic characteristics are important, but also the implementation of a high-level part determines the final quality (Pols et al. 1992). However, some efforts have been made to evaluate objectively for example the quality of automatic segmentation methods in concatenative synthesis (Boeffard et al. 1993).

http://www.acoustics.hut.fi/publications/files/theses/lemmetty_mst/chap10.html

En oikein löytänyt mitään järkevää tähän. Varmasti on jotain automaattisia mekaanisia testejä äänenlaadun evaluointiin mutta valitettavasti hakukoneet eivät suoneet niitä minun eteeni.

Gradussa oli otettu pitkältä ajalta (1 lause) spektri ja tehty siitä joitain johtopäätöksiä laadun suhteen. Tämä siis on Fig 4.1, sivu 37 gradussa. Bitlipsin synteesin spektristä näkyvät korostetut resonanssit 2,5 ja 3 kHz:n kohdilla. Nämä taajuudet ovat tyypillisiä formanteille 3 ja 4, jotka ovat tärkeitä ymmärrettävyyden kannalta, sillä ne näillä taajuusalueilla kuuloaisti on hyvin herkkä. IBM:n synteesin spektri on taas vastaa luonnollinen puheen spektriä. Fig 2:ssä näkyvät F0-käyrät. Kahden ensimmäisen synteesin käyrät ovat normaaliin puheeseen verrattuna epäluonnollisia, ne ovat liian ylimalkaisia ja "sahaavia". IBM:n ja Bitlipsin perustaajuuskäyrät taas ovat varsin luonnollisia. Intensiteetti korreloi parhaiten perustaajuuden kanssa Bitlipsin synteesissä, mikä antaa luonnollisen vaikutelman. Edellämainitut asiat ovat siis akustiset syyt sille, että IBM saa parhaat MOS-tulokset ja Bitlips parhaat HINT-tulokset. Tosin täytyy pitää mielessä ettei ole itsestäänselvää, että synteesiin spektrianalyysin perusteella voisi vetää johtopäätöksiä ymmärrettävyyden suhteen.

-- ArtturiSipila - 12 Feb 2008

Mikropuheen hyödyllisyys sokeille: miksi näin, onko relevanttia VR:lle
The visual information may increase the speech intelligibility significally (Beskow et al. 1997), especially with front vowels and labial consonants. Audiovisual speech is important especially in noisy environments. The intelligibility of audiovisual speech can be evaluated the same way as normal speech.

VR:llä tulostetaan erilaisille näyttötauluille aina se tieto, joka kuulutuksessa sanotaan. VR on panostanut viime aikoina aika paljon liikkumis- ja näkörajoitteisten matkustusoloihin, joten uskon että heitä kiinnostaa tässä mielessä myös puhesynteesiin ymmärrettävyys ilman muita modaliteetteja. Tarkoittaako tuo yllä oleva siis sitä, että Mikropuheen TTS tuottaa selkeämpiä etuvokaaleita ja labiaaleja kuin muut? Vai onko kyse vain siitä puhenopeudesta? Ainakin Bitlipsin sivuilla mainostetaan, että heidän synteesinsä on hyvin ymmärrettävää myös pikalukuna. HMM-pohjaista synteesiä on muutenkin käsittääkseni helpompi kustomoida kuin difonikonkatenaatiosynteesiä.

Mikropuheen suosiota sokeiden keskuudessa selittää myös (kuten arvelimmekin) se, että puheen nopeutta ja taajuutta voi muuttaa mielensä mukaan (mikä ominaisuus puuttuu mm. useimmista kielenopetusohjelmista). VR:lle tämä ei liene oleellinen asia, koska kuulutuksissa ei ole vuorovaikutusta kuulijoiden suunnalta.

-- ArtturiSipila - 12 Feb 2008

Muut tekniset tms. asiat
muut kielet (sv, en), soveltuvuus erilaisiin käyttötarkoituksiin, erot käyttöönotossa... -- TuomasKatila - 06 Feb 2008

BitLipsillä on suomenruotsia puhuva puhesyntetisaattori http://www.bitlips.fi/news/. Jos haluaa saman äänen puhuvan sekä suomea ja ruotsia että englantia, olisi tietenkin hyvä, jos sama ääni on antanut näytteet kaikista kielistä. Voi kuitenkin olla mahdollista rakentaa englanninkielinen ääni ruotsinkielisestä tai päinvastoin http://www.cs.cmu.edu/~awb/papers/icassp2004/mtts.pdf Tämä ei välttämättä ole aina huono idea, koska kuulijat ovat valmiimpia antamaan korostuksella puhuvalle syntetisaattorille anteeksi virheitä. En ole ihan varma, miten väärän kielimateriaalin käyttäminen vaikuttaa synteesin selkeyteen. -- MiikkaSilfverberg - 13 Feb 2008

En ehtinyt paikalle viime kerralla, mutta MOS-testihän tehtiin viime vuonna Puhesovellusten evaluointi -kurssilla kanssa, jostain syystä en nyt löydä sitä vaikka muistaakseni tulokset ovat kitwikissä. Kurssisivulla saattaisi olla jotain huomioita kyllä.

-- TommiPirinen - 11 Feb 2008

Topic revision: r7 - 2008-11-25 - HennaRiikkaLaitinen
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2018 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback