Molte grandi aziende come Google, Microsoft, Yahoo, Yandex, eBay e Amazon creano e formano sistemi per la traduzione automatica di testi di carattere generale che utilizzano miliardi e miliardi di datapoint (come l’intero World Wide Web), per dare un senso ai contenuti online in un’altra lingua.

Se sei un attento osservatore del mondo della traduzione automatica, di recente avrai letto che ultimamente hanno cominciato tutti a usare la “traduzione automatica neurale”. Tuttavia, traduzione automatica generica ≠ traduzione automatica commerciale.

La qualità è decisamente migliorata; tuttavia, un sistema di TA generico è come un pesce fuor d’acqua se utilizzato in un settore diverso da quello per il quale è stato addestrato (di solito articoli, atti parlamentari, ecc). Usalo per tradurre e-mail e chat con clienti internazionali, o informazioni aziendali come le descrizioni dei prodotti, e la traduzione risulterà subito bizzarra.

Il tono formale si mescola con l’informale, i nomi degli enti sono tradotti male, i nomi dei marchi che dovrebbero rimanere invariati vengono invece tradotti e si creano in maniera automatica numerosi altri errori che rendono il contenuto inadatto a un contesto aziendale.

Senza dubbio le tecnologie relative alle reti neurali stanno migliorando notevolmente la TA (soprattutto per quanto riguarda la scorrevolezza), ma esiste ancora un enorme divario tra queste tecnologie e la qualità che ci si aspetterebbe da parte delle imprese multinazionali di oggi.

Performance della TA di Unbabel adattata al contesto

Per soddisfare standard esigenti, accettiamo innanzitutto le limitazioni della traduzione automatica e la adattiamo al nostro metodo di lavoro che combina TA e revisori umani. È stato ormai dimostrato che una migliore TA necessita di un minor lavoro di revisione e, quindi, velocizza e migliora la qualità della traduzione.

Maria ad Unbabel

Di recente abbiamo condotto una serie di esperimenti per comparare la traduzione automatica di Unbabel adattata al contesto e i sistemi di TA generica (con e senza TA neurale) in 5 combinazioni linguistiche (dall’inglese allo spagnolo, al francese, al portoghese, all’italiano e al tedesco).

Usando le segnalazioni dei clienti di Unbabel per Zendesk e Salesforce Service Cloud, abbiamo verificato i risultati utilizzando la metrica automatica standard per la valutazione della TA, il punteggio di BLEU:

La TA di Unbabel adattata al contesto raggiunge punteggi notevolmente più alti, a volte in modo piuttosto netto, confermando la nostra ipotesi, secondo la quale la messa a punto del nostro sistema sfruttando i dati del cliente è molto preziosa. Non è una novità per la comunità scientifica, ma potrebbe esserlo per molti nel settore delle imprese.

Abbiamo tralasciato le nostre funzioni di configurazione del glossario, con cui calibriamo i nostri sistemi in base al cliente, in modo da garantire che vengano rispettate le guide stilistiche, la terminologia dei marchi e altri metadati. Per esempio, Pinterest non vuole che si traduca la parola “Pin” con “spillo” in italiano.

Detto questo, vale la pena sottolineare il seguente concetto: questo è solo l’inizio del servizio che forniamo ai nostri clienti per soddisfare le loro richieste. Ad Unbabel crediamo veramente che le traduzioni si possano “risolvere” solo attraverso una fusione tra intelligenza artificiale e impegno umano.

André e Ramon ad Unbabel

Quando il lavoro automatico è quasi finito, il passo successivo è quello di distribuire questi output a gruppi sapientemente selezionati tra i nostri 45.000 linguisti, che si occupano del lavoro di revisione del contenuto, garantendo così la qualità umana che i nostri clienti si aspettano. Tratteremo questo argomento in un post a parte.


Ringraziamenti:

Il dottore di ricerca di Unbabel André Martins ha condotto gli esperimenti con l’aiuto di Maria Braga e Catarina Cruz Silva.

Nota:

  • abbiamo messo in pratica alcuni accorgimenti di base per evitare gli errori più comuni, assicurandoci che nessuna coppia di frasi in questo set di dati si sovrapponesse al set di dati di addestramento del nostro sistema di TA.
  • Il nostro confronto privilegia leggermente il sistema di Google, dal momento che per questi esperimenti le traduzioni di riferimento erano state ottenute con un lavoro di revisione umana di Google Traduttore (da qui l’asterisco)
  • Non abbiamo preso in considerazione la TA neurale di Google in italiano, perché attualmente non è supportata nella loro API premium.