Il nuovo Traduttore di Google sta imparando a tradurre da sé tra i vari linguaggi

Rappresentazione delle traduzioni del sistema GNMT (Immagine cortesia Google)
Rappresentazione delle traduzioni del sistema GNMT (Immagine cortesia Google)

Poche settimane dopo aver annunciato che il servizio Google Traduttore sarebbe stato aggiornato per usare un sistema di apprendimento automatico chiamato Google Neural Machine Translation (GNMT), gli ingegneri che se ne occupano hanno annunciato che il nuovo sistema ha fatto grossi progressi. In particolare, ha mostrato di poter tradurre da una certa lingua ad un’altra anche senza un addestramento specifico grazie a un’interlingua creata da sé.

La maggior parte dei navigatori del web ha provato il Traduttore di Google per riuscire a leggere una pagina web scritta in un linguaggio sconosciuto. I risultati in genere non sono esattamente al livello di quelli di un traduttore umano e l’azienda sta cercando di migliorarli ricorrendo a un sistema di apprendimento automatico che, proprio come gli umani, migliora col tempo la sua conoscenza di un linguaggio grazie all’esercizio.

Per chi è interessato ai dettagli tecnici, alla fine di settembre 2016 il team Google Brain pubblicò un articolo tecnico intitolato “Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation“. Nei giorni scorsi, ne ha pubblicato un altro intitolato “Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation” che descrive i progressi fatti dal sistema GNMT.

Dopo la fase di addestramento, gli ingegneri di Google hanno verificato che non solo c’è stato un miglioramento nella qualità delle traduzioni ma anche che il sistema GNMT era in grado di andare oltre il suo addestramento. L’espressione “Zero-Shot Translation” usata nel nuovo articolo tecnico indica la capacità di effettuare traduzioni da due linguaggi per i quali non ha ricevuto un addestramento specifico.

Il sistema GNMT è stato addestrato per tradurre una serie di lingue appaiando varie coppie di esse. Ad esempio, ha imparato a tradurre dal giapponese all’inglese e viceversa e dal coreano all’inglese e viceversa. A quel punto, gli ingegneri hanno provato a fargli tradurre dal coreano al giapponese e viceversa senza un addestramento specifico e il risultato è stato dichiarato ragionevole.

Il fattore davvero importante di quest’esperimento è che il sistema GNMT non è passato attraverso l’inglese per tradurre dal coreano al giapponese e viceversa. Usando una rappresentazione tridimensionale della rete interna dei dati, gli ingegneri hanno potuto dare un’occhiata al sistema durante le sue traduzioni e hanno notato i segni dell’esistenza di un’interlingua, una rappresentazione comune in cui frasi con lo stesso significato sono rappresentate in modi simili a prescindere dal linguaggio.

Nell’immagine la parte (a) mostra una geometria globale delle varie traduzioni effettuate dal sistema GNMT con vari colori a indicare i diversi significati delle frasi. La parte (b) mostra un’area specifica e la parte (c) mostra i colori a seconda del linguaggio di partenza.

All’interno dell’area specifica nella parte (b) c’è una frase con lo stesso significato in tre diversi linguaggi. Secondo gli ingegneri di Google ciò significa che il sistema GNMT codifica qualcosa riguardo alla semantica della frase invece di memorizzare traduzioni frase per frase. Ciò è stato interpretato come un segno dell’esistenza di un’interlingua.

Google sta adottando il sistema GNMT per il suo Traduttore linguaggio dopo linguaggio. Ci vorrà tempo per supportare tutte le 103 lingue selezionabili dal servizio e gli ingegneri prevedono che ci saranno ancora errori. Il vantaggio sta nella capacità di un sistema di apprendimento automatico di imparare nel tempo perciò gli utenti possono sperare che in futuro ci saranno sempre meno errori, che a volte sono ridicoli.

Leave a Reply

Your email address will not be published. Required fields are marked *