Pro gradu -tutkielma konekääntimien evaluoinnista

Tutkielmassa käsitellään konekääntimien evaluointia. Tutkielmassa tarkastellaan eri evaluointimetodeja, joita myös verrataan toisiinsa. Konekääntimien evaluointia käsitellään myös eri arvioijaryhmien näkökulmasta. Tutkielmaan sisältyy myös internetissä saatavilla olevien käännöskoneiden evaluointiosuus. Tämä toteutetaan käytännön testinä englannista suomeen käännettävien esimerkkitekstien avulla. Käännöksissä esille tulleita kielivirheet luokitellaan ja eri käännöskoneiden käännöksiä vertaillaan keskenään.

Tutkimussuunnitelman osat:

ongelmanasettelu

Antaa kokonaiskuva konekääntimien arvioinnista ja vertailla eri evaluointimetodeja keskenään. Eri evaluointimetodeista pyritään erottamaan hyvät ja huonot puolet. Tutkielma sisältää testiosuuden, jossa internetistä saatavilla konekääntimillä käännetään lauseita englannista suomeen. Käännettäviksi lauseiksi on valittu kieliopista eri tasoisia lauseita, jotka käännetään. Näin saadaan kuva käännöslauseiden tason vaikutuksesta lauseiden oikeellisuuteen.

aiemmat tutkimukset

Konekääntimien evaluoinnista on tehty paljon aiempia tutkimuksia. On olemassa myös paljon muuta kirjallisuutta ja materiaalia, joita voidaan käyttää lähdemateriaalina tutkielmassa.

oma hypoteesi

Eri konekääntimet suoriutuvat samoista lauseista eri tavalla. Virheitä käännöksissä voi esiintyä kielioppisääntöjen ja sanaston kohdalla. Virheiden syistä voidaan esittää oletuksia. Tasoeroja esiintyy erityisesti kotimaisten ja ulkomaisten konekääntimien välillä. Koekäännöslauseiden arviointituloksia verrataan aiempiin konekääntimien arviointeihin.

tunnetut tosiseikat

-erot kääntimien välillä

-tarvitaan ihmisten käännöksen tarkistaminen ja/tai korjaaminen täysin oikeaa kieltä edellytettäessä

-esim. informaation hakuun riittää vähemmän oikeellinen kieli

niiden analyysi

Lähdemateriaalin avulla tosiseikkojen esille tuominen sekä koekäännöslauseiden avulla konekääntimien arviointi.

Oletettuja päätelmiä

Konekääntimien evaluointimetodien kehittely on jatkunut niin kauan, että evaluointimetodeissa on huomattu sekä hyviä että huonoja puolia. Tarkoituksena on tuoda esiin tärkeimmät asiat, jotka ovat selvinneet aiemmissa tutkimuksissa. Evaluointimetodit ovat kehittyneet ajan kuluessa, mutta parannettavaa vielä on. Konekääntimien testiosuudessa selviää käytännössä millaisia käännöksiä konekääntimet nykyään tuottavat ja millaisia virheitä konekäännöksissä esiintyy. Ulkomailla tehdyissä konekääntimissä esiintyy enemmän virheitä käännöksissä englannista suomeen. Suomi on harvinainen kieli ulkomailla ja kuuluu suomalais-ugrilaiseen kieliryhmään, joten kielen rakenne poikkeaa paljon englannin kielestä.

Konekääntimien evaluointi

Alustava sisällysluettelo

1. Johdanto ja tutkimusväite

Tutkielmassa käsitellään konekääntimien evaluointia. Tutkielmassa selostetaan eri evaluointimetodeja ja verrataan eri evaluointimetodeja toisiinsa. Tutkielmassa pyritään tuomaan esiin eri evaluointimetodien hyvät ja huonot puolet verrattuna muihin evaluointimetodeihin. Konekääntimien evaluointia tarkastellaan myös eri arvioijarymien näkökulmasta. Eri arvioijaryhmillä on hyvin erilaiset lähtökohdat konekääntimien evaluointiin ja erilaiset tavoitteet konekääntimien evaluoinnin suhteen. Tutkielmaan sisältyy myös internetissä saatavilla olevien käännöskoneiden evaluointiosuus, joka toteutetaan käytännön testinä englannista suomeen käännettävien esimerkkitekstien avulla. Käännöksissä esille tulleita kielivirheet luokitellaan ja eri käännöskoneiden käännöksiä vertaillaan keskenään.

2. Konekääntimien eri arviointimenetelmät

Konekääntimiä voivat arvioida joko ihmiskääntäjät tai niitä voidaan arvioida konekääntimien muiden evaluointimetodien avulla, joita ovat mm. BLEU, NIST, Meteor, WER, F-mitta, saanti ja tarkkuus. Nämä arviointimenetelmät perustuvat erilaisiin laskentakaavoihin. Erilaisista laskentakaavoista johtuen arviointimetodit arvioivat lauseita eri tavalla ja samojen käännösten arviointitulokset saattavat vaihdella eri arviointimenetelmien välillä.

3. Konekääntimien eri arviointimenetelmien vertailu eri ominaisuuksien suhteen

Arviointimenetelmiä verrataan toisiinsa niiden eri ominaisuuksien perusteella. Arviointimenetelmien hyvät ja huonot puolet on tarkoitus tuoda esille ja samalla verrata evaluointimetodeja toisiinsa.

4. Konekääntimien evaluointi eri arvioijaryhmien näkökulmasta

Konekääntimien arviointiin osallistuu monia eri arvioijaryhmiä. Näitä ovat tutkijat, ohjelmien kehittäjät, ostajat sekä käyttäjät. Nämä kaikki ryhmät arvioivat konekääntimiä omista lähtökohdistaan ja tarkastelevat arviointituloksia eri kannalta.

5. Konekääntimien aiempia arviointeja käyttäen koekäännöslauseita

Osio sisältää aiempien konekäännöstestien tulosten vertailua.

6. Koekäännöslauseet englannista suomeen valituilla konekääntimillä

Osio sisältää käytännön osuuden, jossa konekääntimillä käännetään lauseita englannista suomeen.

7. Konekääntimillä käännettyjen koekäännöslauseiden virheiden analysointi

Koekäännöslauseiden virheitä analysoidaan ja niitä verrataan aiempiin tutkimuksiin.

8. Yhteenveto

Osiossa vastataan kysymykseen mikä on konekäännöksen tila tällä hetkellä ja mikä osuus konekääntimillä on tulevaisuudessa kääntämisen alalla. Konekääntimien arviointimenetelmien ja koekäännöslauseiden yhteenveto sisältyvät myös tähän osioon.

9. Lähteet

Lähteinä käytetään kirjoja sekä internetissä julkaistuja alan artikkeleita ja tutkimuksia.

*(Poistettu myöhemmin) Gradun tämänhetkinen versio, lisäksi liitetiedostoja (poikkeaa vähän opponenteille aiemmin lähetetystä)

Topic attachments
I Attachment Action Size Date Who Comment
Microsoft Word filedoc Gradu_esitys_Kitwiki.doc manage 265.5 K 2010-04-27 - 11:00 UnknownUser Gradun tämänhetkinen versio, lisäksi liitetiedostoja (poikkeaa vähän opponenteille aiemmin lähetetystä)
Microsoft Word filedoc Gradu_knnslauseet_virheet_numerokoodit_ja_selostus.doc manage 191.5 K 2010-04-27 - 11:08 UnknownUser Gradun käännöslauseiden virheet, numerokoodit ja virheiden kuvailu
Microsoft Word filedoc Gradun_knnslauseiden_virheit_kuvaavat_numerokoodit.doc manage 22.0 K 2010-04-27 - 11:09 UnknownUser  
Microsoft Word filedoc Knnslauseiden_virhetaulukko.doc manage 162.5 K 2010-04-27 - 11:11 UnknownUser Käännöslauseiden virhetaulukko ja koostetaulukko
Topic revision: r7 - 2011-11-05 - PaulaPentinmaki
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2019 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback