Il “kiwi mancante” della traduzione automatica: stima della qualità open-source

6 min read
Open Source Framework for Machine Translation
Artwork by Ricardo Araújo

Era il 1954 e il futuro era chiaro: i traduttori umani sarebbero stati obsoleti nel giro di pochi anni.

Almeno è quanto i ricercatori di IBM dichiararono con orgoglio alla prima dimostrazione pubblica del loro sistema di traduzione automatica.

Ora sappiamo che questa affermazione è e continuerà a essere tutto fuorché veritiera. Ma anche agli albori della traduzione automatica, negli anni del dopoguerra, non c’era tutto questo ottimismo.

Infatti, nel 1947, lo scienziato americano e pioniere della traduzione automatica Warren Weaver dichiarò:

Sorge spontaneo chiedersi se il problema della traduzione possa essere concepito come un problema di crittografia. Quando leggo un articolo in russo, penso: “È proprio scritto in inglese, ma è stato codificato con degli strani simboli. Ora procederò alla decodifica”.

Qualche anno dopo, Weaver proseguì: “Nessuno con un po’ di buon senso penserebbe che la traduzione automatica possa un giorno raggiungere eleganza e stile”.

Il punto è che la traduzione richiede più di un decodificatore. Provate a tradurre poesie o testi letterari con un servizio di traduzione automatica: il risultato sarà molto simile a dei messaggi in codice.

Per questo motivo gli umani svolgono un ruolo fondamentale. La nostra eccezionale conoscenza del mondo è determinante per la traduzione. Noi umani comprendiamo il contesto di una conversazione, lo sfondo culturale, i significati nascosti. Le macchine non hanno ancora quel tipo di conoscenza. Come afferma il nostro CEO Vasco Pedro: “Isistemi di traduzione automatica sono programmati per leggere frasi in parallelo, che è un po’ come insegnare a un pappagallo a parlare; il pappagallo potrebbe imparare a farlo, ma non riuscirà mai a capire davvero ciò che dice“.

Questo spiega perché gli straordinari sviluppi nel campo della traduzione automatica negli ultimi anni non hanno ancora raggiunto un livello tale da consentire di sfruttarla senza il controllo degli umani. È qui che entra in gioco la stima della qualità (QE, Quality Estimation).

Noi di Unbabel stiamo compiendo notevoli progressi con la QE al fine di garantire traduzioni veloci e precise, su larga scala, a molti dei nostri clienti, tra cui aziende come Booking.com, Microsoft, Skyscanner e Pinterest.

Poiché la QE gioca un ruolo così importante nella nostra azienda, ho deciso di scrivere questo articolo per spiegare il motivo per cui ritengo che la QE sia davvero l’anello mancante nella traduzione e il modo in cui OpenKiwi (il nostro nuovissimo framework open-source per la QE) contribuirà allo sviluppo della traduzione automatica gestita da umani.

Cos’è la stima di qualità della traduzione?

Prima di approfondire le possibilità della QE per migliorare le traduzioni automatiche, è importante capire esattamente di cosa stiamo parlando.

Utilizziamo la stima della qualità per valutare la qualità di un sistema di traduzione senza accedere alle traduzioni di riferimento. In altre parole, il suo obiettivo è quello di capire quanto corretta sia una traduzione, senza l’intervento umano.

Può essere utilizzata per molti scopi diversi:

  • comunicare all’utente finale l’affidabilità dei contenuti tradotti;
  • stabilire se una traduzione può essere subito pubblicata o se richiede una revisione umana;
  • evidenziare le parole che devono essere cambiate.

In Unbabel usiamo la QE per assicurarci che, qualora una traduzione non sia abbastanza buona da essere consegnata, venga rivista dalla nostra community bilingue di oltre 100,000 traduttori. Sono in grado di correggere rapidamente gli errori e offrire traduzioni di alta qualità ai nostri clienti. Più traduciamo, più il sistema impara e meno errori farà in futuro.

Di conseguenza una buona QE diminuisce il carico di lavoro dei traduttori umani. Con un sistema automatizzato che evidenzia gli errori prima ancora che l’umano svolga il suo compito, i traduttori possono concentrarsi su una parte di contenuto che richiede senz’altro maggior attenzione.

Negli ultimi anni abbiamo assistito ai risultati straordinari che la tecnologia e la community hanno raggiunto insieme. Desideriamo integrare la community ancora più in profondità nella nostra tecnologia e nei nostri processi, con OpenKiwi, un framework collaborativo per la stima della qualità.

Open Source Framework for Quality Estimation

OpenKiwi: un framework open-source per la comunità che lavora sulla traduzione automatica

In Unbabel, i nostri modelli di traduzione automatica sono in funzione sui nostri sistemi di produzione per 14 coppie di lingue, con copertura e prestazioni che migliorano nel tempo, grazie alla crescente quantità di dati prodotti dai nostri traduttori umani ogni giorno. Grazie alla combinazione di IA e umani, il nostro iter di traduzione è migliore e più veloce.

Tuttavia i nostri innovativi sistemi di stima della qualità non erano accessibili ai ricercatori esterni e ciò ha limitato i risultati che avremmo potuto ottenere insieme. In Unbabel crediamo fermamente nella ricerca riproducibile e collaborativa. Desideriamo che tutta la comunità di ricerca dell’IA tragga vantaggio dalle nostre scoperte e vogliamo essere in grado di costruire, crescere e sperimentare insieme.

Da qui è nata l’ispirazione per realizzare OpenKiwi.

OpenKiwi è un framework open-source che utilizza i migliori sistemi di stima della qualità, semplificando la sperimentazione e l’iterazione di questi modelli nello stesso framework, nonché lo sviluppo di nuovi modelli. Unendo questi modelli possiamo raggiungere risultati eccellenti nella stima della qualità a livello di parola.

Il potere dell’open-sourcing

Sicuramente molte persone si chiederanno cosa ci ha spinto a creare un framework open-source, invece di tenerci stretta la nostra tecnologia QE. Se c’è qualcosa in cui crediamo, è la collaborazione.

Non molto tempo fa, la “barriera di accesso” anche per i progetti software di base era estremamente rigida. Occorrono mesi per riprodurre i risultati di un lavoro di ricerca, semplicemente perché il codice utilizzato alla base nel progetto non era disponibile sin da subito.

L’open-source in ambito software offre una serie di vantaggi che superano di gran lunga gli svantaggi percepiti. Permettendo agli altri di accedere a ciò che abbiamo realizzato, non solo ci dà la possibilità di lavorare con una comunità più ampia di esperti, ma anche di compiere progressi insieme in modo più rapido. Nelle soluzioni open-source, anche i problemi più piccoli vengono notati, segnalati e risolti più velocemente.

Basti pensare alla traduzione automatica. Il campo della traduzione automatica ha tratto notevoli vantaggi da software open-source come Moses, OpenNMT e Marian, per citarne alcuni. Questi progetti sono riusciti a riunire una vasta comunità di partecipanti, provenienti sia dall’industria che dal mondo accademico, che stanno compiendo notevoli progressi nel campo della traduzione automatica. Anche noi diamo il contributo ad alcuni di questi progetti. È grandioso!

Tuttavia nessuno aveva ancora pensato alla stima della qualità. In quell’ambito le iniziative open-source esistenti sono davvero poche, attuate solo da alcuni gruppi accademici, e non hanno mai avuto la stessa spinta. Questo è il divario che stiamo colmando ora con OpenKiwi.

Mettendo OpenKiwi a disposizione della comunità, sono certo che contribuiremo tutti a un quadro più ampio e daremo forma al futuro della traduzione.

Per quanti progressi siano stati fatti, la traduzione automatica resta un concetto altamente meccanico, almeno per ora. Tuttavia, insieme a un utilizzo attento dei dati e ai traduttori umani con un’eccellente conoscenza della loro lingua, la traduzione automatica si appresta ad ampliare l’accesso, migliorare i rapporti tra consumatori e aziende e garantire comprensione nel mondo.

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon