La nostra ampia visione consente aUnbabel di fornire traduzioni umane di qualità su larga scala con l’aiuto della traduzione automatica. Ma come facciamo a sapere che stiamo facendo una buona traduzione? 

Per noi qualità significa avere un buon testo di partenza su cui lavorare, elaborarlo attraverso il nostro strumento di traduzione automatica e, infine, inviarlo con criterio a una comunità selezionata di redattori che supportiamo con strumenti e ausili che permettono loro di revisionare, modificare e approvare il contenuto il più velocemente possibile.

In primo luogo, ecco i diversi metodi che utilizziamo per valutare, controllare e ottimizzare la qualità attraverso tutti i passaggi della nostra catena di traduzione linguistica.

Controlli di qualità e annotazioni

Effettuiamo periodici controlli di qualità dei nostri clienti e annotazioni settimanali di dati campionati, verificando ipotesi ed eseguendo analisi approfondite grazie a cui poter rilevare errori più frequenti del normale nella nostra catena di traduzione. Qui usiamo lo standard di misurazione del settore, MQM, o Qualità Metrica Multidimensionale, per essere in grado di confrontare oggettivamente le nostre prestazioni con terzi e con librerie di traduzione open source. 

Il nostro processo di annotazione è condotto da un pool di specialisti con un background nel settore della traduzione e della linguistica, in grado di costruire un approfondito bagaglio di conoscenze all’interno della nostra piattaforma che possa incrementare la qualità complessiva e ridurre i tempi di consegna. 

Personalizzazione per il cliente

A Unbabel creiamo e conserviamo glossari per ogni cliente e ci assicuriamo che istruzioni specifiche, linee guida del marchio e toni vengano rispettati. I redattori della nostra community possono accedere a queste informazioni insieme ai lavori di traduzione in modo da avere a disposizione un quadro più chiaro del contesto quando lavorano sulla base di specifiche indicazioni del cliente, garantendo una qualità ancora più elevata e tempi di consegna più rapidi. 

Valutazione e strumenti del redattore

Supportati da collaboratori della nostra community e del mondo accademico, eseguiamo valutazioni continue della nostra community accompagnate da un feedback linguistico. Creiamo Task Di Allenamento che assomigliano a veri e propri lavori di traduzione, in modo tale da valutare accuratamente i nostri redattori e creare così linee guida linguistiche per aiutare a insegnare alla community a non commettere gli errori più comuni. 

Con l’aiuto di ricercatori di Natural Language Processing e specialisti in altri campi, siamo in grado di sviluppare strumenti come lo SmartCheck, che crea avvisi e suggerimenti per la nostra community di redattori in modo da aiutarla nella correzione dei testi ((puoi immaginarlo come una versione multilingue sovralimentata del controllo ortografico). 

Il Sistema Pluri-premiato di Valutazione della Qualità di Unbabel

Una delle componenti chiave della catena di traduzione di Unbabel è il nostro sistema di Valutazione della Qualità, che identifica le parole scorrette per fornire un punteggio automatico di qualità a una determinata frase tradotta, consentendo ai redattori umani di prestare particolare attenzione alle sezioni di frase che hanno bisogno di essere modificate. 
Proviamo aimmaginare una frase da tradurre, come ad esempio “Ehi, mi dispiace!”, (un esempio reale tratto dal nostro servizio di integrazione Zendesk.).

Ora, immagina una traduzione automatica di questa frase in una lingua di destinazione come il portoghese, come ad esempio “Hey lá, eu sou pesaroso sobre aquele!”, (anche questo purtroppo un esempio reale. In questo caso, si tratta di una traduzione portoghese molto imprecisa ed eccessivamente letterale riportata da un famoso sistema di TA.). 
Per questo esempio, il nostro sistema segna tutte le parole senza punteggiatura come errate e assegna un punteggio bassissimo di 0.222. 

 

 

Perché ci preoccupiamo della valutazione della qualità? Prima di tutto, i fatti dimostrano che la stima della qualità rende il lavoro dei redattori umani molto più semplice. Individuare le parole errate li aiuta a prestare particolare attenzione ad alcune parti di frasi che probabilmente necessitano di correzioni.

In secondo luogo, permette di rilevare che una frase non è ancora pronta per essere consegnata ai nostri clienti, se il punteggio automatico della qualità è al di sotto di una certa soglia, e che necessita dell’intervento umano per essere migliorata. Tutto questo mette Unbabel sulla strada giusta per consegnare traduzioni coerenti e di ottima qualità.

La valutazionedella qualità è uno degli obiettivi chiave discussi nell’annuale Conferenza/Workshop sulla Traduzione Automatica ((WTA). Ogni anno queste campagne valutano e confrontano i migliori sistemi di tutto il mondo, provenienti sia dal mondo accademico che industriale. Nel 2016 abbiamo riunito un team (che comprendeva Chris Hokamp, un dottorando presso la Dublin City University, che ha fatto uno stage con noi nell’ambito della rete EXPERT sovvenzionata dai fondi dell’Unione Europea) e ha partecipato per la prima volta a questo programma di livello mondiale.

Il nostro sistema ha vinto la competizione con un gran margine di vantaggio, (un punteggio F1 del 49,5%, contro il 41,1% ottenuto dal miglior sistema non-Unbabel), combinando un sistema lineare basato su modelli sintattici, con tre sistemi di rete neurale indipendenti, combinati assieme.

Questi risultati sono stati molto incoraggianti, ma il problema era ancora lontano dall’essere risolto. Se fosse stato risolto allora anche la traduzione automatica sarebbe quasi perfetta, poiché si potrebbe richiedere un sistema di stima della qualità per valutare una lunga lista di traduzioni candidate e recuperare le migliori.

Battere il nostro stesso record mondiale di Post-Editing Automatico 

Quindi, come potremmo migliorare ulteriormente? Un’altra tecnologia di cui facciamo uso a Unbabel è il Post-Editing Automatico (PEA), il cui obiettivo non è individuare errori o determinare la qualità della TA, ma correggere automaticamente una traduzione. 

Nel nostro esempio di cui sopra, un buon risultato sarebbe quello di trasformare la terribile frase “Hey lá, eu sou pesaroso sobre aquele!” in qualcosa tipo “Olá, peço desculpa pelo sucedido.”

Tenuto conto della somiglianza naturale tra le attività di valutazione della qualità e di post-editing automatico, abbiamo deciso di unire i nostri sforzi per vedere dove potevamo ottenere una migliore stima della qualità utilizzando l’output di un sistema automatico di post-editing come funzione aggiuntiva.

Per verificare l’ipotesi, abbiamo collaborato con Marcin Junczys-Dowmunt, dell’Adam Mickiewicz University (AMU), il team che ha vinto per il lavoro di post-editing automatico nel WMT del 2016, e che ha avuto un grande successo nella creazione di ulteriori dati utilizzando “traduzioni di andata e ritorno” e combinando i sistemi di traduzione automatica neurale monolingue e bilingue con un modello lineare.

I risultati hanno superato le nostre migliori aspettative: combinando il sistema di post-editing automatico AMU col nostro precedente sistema di Valutazione della Qualità, tramite una tecnica chiamata “stacked ensembling” (combinazione in serie), i risultati sono stati sorprendenti: abbiamo migliorato il nostro precedente miglior punteggio a livello di parola, passando dal 49,5% al 57,5%, (un miglioramento netto di 8 punti percentuale). 

Siamo anche riusciti a costruire un sistema di calcolo del punteggio di qualità per le frasi, ottenendo un punteggio di correlazione di Pearson del 65,6%, un miglioramento netto di oltre il 13% rispetto al precedente miglior sistema sviluppato da Yandex.
Il nostro continuo successo significa che possiamo mettere in pratica il sistema di valutazione della qualità, riducendo i tempi di post-editing e garantendo traduzioni veloci e di alta qualità per i clienti di Unbabel. 

 ——————————————————————————————————————————————————–

Il team AI Research di Unbabel (André Martins, Ramon Astudillo e Fábio Kepler) ha condotto i test sulla valutazione della qualità.

I dettagli completi sono consultabili nel nostro documento TACL (clicca qui per visionare una bozza), la cui pubblicazione è stata appena approvata: André F.T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramon Astudillo, Chris Hokamp. “Superarei Limiti della Valutazione della Qualità della Traduzione”.

In Transazioni dell’Associazione per la Linguistica Computazionale, 2017 (cheapparirà presto).

La dr.ssa Helena Moniz dirige il team di qualità a Unbabel su base quotidiana.