DE Google översätt – eller Google Translator – är världens mest kända gratisverktyg för maskinöversättning. Det är möjligt tack vare den enorma mängden data från Google. För en främling i översättningsbranschen som jag verkade Google Translate representera ett enormt framsteg i översättningskvalitet när det först introducerades. Men sedan dess verkar dess kvalitetsförbättringar mer inkrementella när de är synliga för alla. Hur gick Google Translate så bra? Och hur kan du undvika standarden i kvalitet, och ändå förbättra?
En av de ljusa sidorna med att vara journalist är att när du har sådana här frågor kan du bara ringa de du känner bäst och ställa dem. Googles pressteam svarade på mitt mejl och ställde flera frågor om Translate.
För det första, var fick Google all sin data? Han kryper och sparar text från ungefär en biljon webbsidor. Men hur vet han vilken mänsklig översatt text är för att köra sina statistiska inlärningsalgoritmer? Jag trodde kanske att människor slaktar och kodar texterna som ska matas in i motorn.
Är du en person som översätter till Google Translate?
Men Google förklarade att sökmotorn helt enkelt letar efter sidor som verkar vara översättningar av varandra. Kanske har de identiska domäner, bara en slutar på /pt och den andra slutar på /br. Kanske har de identiska egennamn eller nummer i samma position. Programvaran väger inte en match som mer eller mindre sannolikt att vara en översättning – det är ett binärt eller binärt beslut, in eller ut.
Hur var det så bra? Det första kvalitetssprånget kom från ren massa. En artikel från 2009 av tre Google-forskare svarade på “fysikavundsjuka” studenter på mänskliga fenomen känner. En klassisk artikel från 1960-talet hade titeln “The Irrational Effectiveness of Mathematics in the Natural Sciences”, som hyllade kraften i formler som f=ma. Lingvistik har ingen sådan formel. Men Googles forskare kontrade genom att kalla sin artikel från 2009 “The Irrational Effectiveness of Data.”
Googles tillvägagångssätt är att ett enkelt tillvägagångssätt på stora mängder data är bättre än ett smart tillvägagångssätt på begränsad data. Med så mycket data kommer felen förhoppningsvis att elimineras i det enorma aggregatet.
Förutom all denna förvirrande otaggade och otaggade data, får Google en del speciell data från professionella översättare: Europeiska patentverket delar data med Google, till exempel, även om Hughes säger att denna data är EPO (trots dess höga kvalitet) har för närvarande ingen speciell vikt i Google Translate för allmänheten. Han noterar förnuftigt att många använder Google Translate för slangia eller talade språksyften, för vilket det skulle vara mindre idealiskt att ge för stor vikt åt typen av språk i en patentansökan.
Men även Google har gränser för vad enorma mängder data kan göra. Det finns tusentals potentiella språkpar på de dussintals språk som Google Translate erbjuder. Men för de allra flesta av dessa jämnåriga (t.ex. finska-zulu) finns det lite eller ingen träningstext tillgänglig, även på en biljon webbsidor. Så användaren som hoppas kunna översätta finska till zulu på Google Translate kommer att uppleva ett “bryggspråk”, nästan säkert engelska.
Detta vidgar givetvis möjligheterna för fel. Asya Pereltsvaig, som undervisar i lingvistik vid Stanford, tog Google Translate översätta ett ryskt barnrim med “två glada gäss” till franska och förvandla gay deux oies – två homosexuella gäss. Boven var naturligtvis den dubbla betydelsen av “gay” på engelska, bryggspråket mellan ryska och franska.
Detta leder till ett annat problem. Pereltsvaig översatte den här frasen med Google Translate, hur dålig den än må vara. Den dud-översättningen finns nu på webben, där den kommer att spåras av Google – och kan returneras till Google Translate. Tänk om tjänsten, rent ut sagt, konsumerar sitt eget sopor?
Hughes erkänner problemet uppriktigt. Google försökte “tagga” deras översättningar elektroniskt så att sökroboten skulle känna igen dem och försöka undvika att mata tillbaka fel i systemet som indata. Och så finns det webbsidor som helt enkelt har samma text på – misstänkt nog – alla språk som Google Translate erbjuder. Systemet kan gissa att dessa översatts av Google och undvika att mata tillbaka dem i systemet.
Skulle mer data hjälpa en organisation som redan har så mycket? Skulle tio biljoner sidor vara synbart bättre än en biljon? Hughes är återigen rak: för de vanligaste språkparen “har vi nått gränsen där mer data är användbar.”
Deras ansträngningar har gått ut på att göra Google Översätt smartare och leka med regelbaserade förbättringar för att se om de förbättrar kvaliteten. Med andra ord, om Google Translates första stora språng kom från enorma data och datorkraft, åtminstone för stora språk, kommer nästa steg framåt att bero mer på intelligent mjukvaruteknik. Till exempel kan automatisk analys förbättra ordföljden i översättningar.
Och han nämner neurala nätverk som en särskilt spännande väg för sökning – detta har trots allt varit särskilt användbart i Googles taligenkänning.
Men det finns ett annat sätt: det stora mjukvaruföretaget ber gamla goda mänskliga användare att hålla fast vid sina kunskaper. Om du är en frekvent användare av Google Översätt, har du förmodligen lagt märke till “Hjälp att förbättra Google Översätt” längst ned på sidan. Dessa användardrivna ansträngningar ger ett särskilt hårt slag för de språk för vilka det är ont om data, och användare är angelägna frivilliga.
En datitatan som Google är smart nog att veta gränserna för data. Hughes hoppas att några radikala framsteg (ej diskuterade) ännu kan leda till ett plötsligt språng i kvaliteten på Google Translate. Men även frånvarande förväntas cykler av datainsamling och inkrementell innovation att gradvis höja kvalitetsnålen. Och folkmassornas visdom – Google-användare – kan öka ännu mer.