DM-medlem finder Google Translates svagheder

13. august 2010 Af Martin Ejlertsen

Takket være sprogforsker Anders Søgaards arbejde med at dokumentere hovedproblemer i digitale oversættelsessystemer kan Google Translate nu forbedres.

For at finde svaret må man stille det rette spørgsmål. Det gjorde DM-medlem og adjunkt i sprogteknologi ved Københavns Universitet Anders Søgaard. Han har stået i spidsen for forskning, som dokumenterer de problemer, som maskinoversættelsessystemer som Google Translate har med at oversætte sætninger og fraser helt korrekt. Det har ledt til en lille sproglig revolution.

“Vi har påvist, at det er nødvendigt at arbejde med diskontinuerte fraser i maskinoversættelser som Google Translate. Vi har stillet spørgsmålet, hvordan det kan gøres, uden at systemerne bliver for komplicerede”, siger Anders Søgaard.

Systemer som Google Translate har problemer med at oversætte faste vendinger og sammensætninger af ord, som er diskontinuerte (opbrudt). Det har ført til mærkelige og ofte ganske morsomme oversættelser af visse ord og sætninger. Men nu er Standford University på baggrund af Anders Søgaards forskning kommet frem til, at svaret på det problem er, at man laver en relativt simpel udvidelse af den oversættelsesalgoritme, som bliver anvendt i maskinsystemer som Google Translate.

“I Google Translate og lignende systemer konstruerer man oversættelseshypoteser for en sætning fra venstre mod højre. Inden man når frem til sætningens slutning, har man konstrueret og beregnet sandsynligheder for kombinationer af oversættelser af dele af sætningen. Disse dele kan være ord eller fraser. Undervejs smider man hele tiden de mindst sandsynlige oversættelseshypoteser væk, fordi systemerne ellers bliver for langsomme. I Stanfords nye system kan man også arbejde med diskontinuerte fraser”, siger Anders Søgaard.

Et andet svar
Google Translate er enormt simpelt opbygget. Det er både fordelen og ulempen ved systemet, forklarer Anders Søgaard. Det behandler store mængder af oversat tekst og finder bidder af tekst, der er ækvivalente. Disse bidder er ordpar eller frasepar, som systemet kombinerer og flytter rundt på i forsøget på at finde frem til den bedste oversættelse.

“Der er altså ingen syntaks eller semantik i systemet, selv om man ved, at det burde være der. I praksis har det nemlig vist sig meget svært at inkorporere det i den slags systemer. Det er stadig et åbent spørgsmål, hvordan man på bedst mulig vis bruger syntaks i maskinoversættelser”, forklarer Anders Søgaard.

Det svar er netop, hvad Anders Søgaard og hans lille gruppe af danske forskere lige nu arbejder på at finde.

“Vi arbejder med forskellige syntaksmodeller, der begrænser antallet af mulige oversættelser. Det betyder, at man kan gemme meget usandsynlige oversættelseshypoteser, indtil man når slutningen af sætningen”, siger han.

Stanford Universitys ændring er en simpel ændring af systemet i Google Translate, som bygger på en arkitektur, der i forskningskredse forbindes med open source-systemet Moses. Den bedste oversættelse af en sætning kan dog vise sig at være matematisk usandsynlig, lige til man når selve slutningen af sætningen. Man risikerer derfor at smide god information væk og således forringe oversættelsen. Og vejen til at løse det problem er ikke helt ligetil.

“Det kræver en større ændring af den arkitektur, som man normalt anvender i maskinoversættelser, og den arbejder vi på at finde”, siger Anders Søgaard og pointerer, at når man har løst det problem, mangler man kun at løse problemet med datamangel.

“Det er et problem, som kun delvist kan løses. En menneskelig oversætter bliver jo også nødt til at lære nye udtryk og hele tiden være opmærksom på at opdatere systemet med nye udviklinger i sproget”, siger Anders Søgaard.