Una mirada más cercana a los sistemas galardonados de estimación de la calidad de la traducción de Unbabel

8 min read

Tenemos una gran visión para que Unbabel proporcione traducciones de calidad comparable a traducciones hechas por humanos, pero a la escala de la traducción automática. Pero, ¿Cómo sabemos que estamos haciendo un buen trabajo? 

Para nosotros, la calidad es una mezcla de tener un buen texto inicial con el cual trabajar, procesarlo a través de nuestro sistema de traducción automática dominio-adaptada y después distribuir de modo inteligente estos resultados entre una comunidad experimentada de editores, a quienes facilitamos las herramientas y medios de ayuda que les permiten revisar, post-editar y aprobar el contenido lo más rápido posible.

En primer lugar, aquí están las múltiples formas en que medimos, controlamos y optimizamos la calidad durante todo el proceso de traducción del idioma.

Auditorías de Calidad y Anotaciones

Llevamos a cabo auditorías de calidad periódicas de nuestros clientes y anotaciones semanales de datos muestreados, probamos diferentes hipótesis y ejecutamos análisis a profundidad donde el objetivo es encontrar más errores de lo normal en nuestra cadena de traducción. Aquí usamos la métrica estándar de la industria, MQM, Multidimensional Quality Metric (Métrica de Calidad Multidimensional), para poder comparar de modo objetivo nuestro desempeño con terceros y programas de traducción de distribución libre. 

Nuestro proceso de anotaciones es llevado a cabo por un grupo de especialistas con experiencia en estudios de traducción y lingüística, quienes son capaces de construir una gran reserva de conocimiento dentro de nuestra plataforma que mejora la calidad general y disminuye el tiempo de respuesta para la entrega. 

Personalización del Cliente

En Unbabel creamos y mantenemos glosarios para cada cliente, y nos aseguramos de seguir instrucciones específicas, directrices de la marca y tonos de voz. Los editores de nuestra comunidad pueden acceder a esta información cuando realizan las tareas de traducción para poder tener un mejor contexto cuando se trabaja en el estilo de comunicación de un cliente específico, asegurando una calidad aún mayor y una respuesta más rápida. 

Herramientas de Evaluación y Edición

Con el apoyo de colaboradores de nuestra comunidad y el mundo académico, llevamos a cabo evaluaciones continuas de nuestra comunidad con retroalimentación lingüística. Creamos Tareas de Entrenamiento que se asemejan a las tareas reales para con precisión establecer el desempeño de nuestros editores, y producir directrices lingüísticas para ayudar a entrenar a la comunidad a evitar errores comunes. 
Con la ayuda de investigadores en Procesamiento Natural del Idioma junto a otros especialistas, somos capaces de desarrollar herramientas como Smartcheck, que proporciona alertas y sugerencias a nuestra comunidad de editores para ayudarlos con la lectura de corrección, (algo así como una versión multilingüe super mejorada de la corrección ortográfica. 

El Sistema Galardonado de Unbabel de Estimación de la Calidad

Uno de los componentes clave del proceso de traducción de Unbabel es nuestro Sistema de Estimación de la Calidad, que identifica las palabras que son incorrectas para proporcionar una puntuación automática de la calidad de una frase que ha sido traducida, lo que permite a los post-editores humanos prestar atención especial a las partes de las frases que necesitan ser modificadas. 
Vamos aimaginarnos una frase en su idioma de origen, como por ejemplo: «¡Hola, lo siento!» (un ejemplo real de nuestra Integración Zendesk). 
Ahora, imaginemos una traducción automática de esta frase en un idioma de destino como portugués, tal como: «Hey lá, eu sou pesaroso sobre aquele!», (por desgracia, este también es un ejemplo real, en este caso, una traducción al portugués muy imprecisa y excesivamente literal tomada de un sistema de TA popular). 
Para este ejemplo, nuestro sistema marca todas las palabras de puntuación como incorrectas y asigna una puntuación muy baja de 0,222. 

¿Por qué nos importa en lo absoluto la estimación de la calidad? En primer lugar, hay evidencia que la estimación de la calidad hace el trabajo de post-editores humanos mucho más fácil. La identificación de palabras incorrectas les ayuda a prestar una atención especial a ciertas partes de frases que probablemente necesiten ser reparadas.
Segundo, permite detectar que una frase aún no está lista para ser entregada a nuestros clientes, si la puntuación automática de calidad está por debajo de un umbral, necesita un humano para arreglarla. Esto pone a Unbabel en el camino correcto para entregar traducciones consistentes, y de alta calidad.
La estimación de la calidad es una de las tareas compartidas clave en la campaña anual de la Conferencia / Taller sobre Traducción Automática (WMT). Cada año, estas campañas evalúan y comparan los mejores sistemas en todo el mundo, tanto en el mundo académico como en la industria. En 2016, reunimos un equipo (que incluía a Chris Hokamp,un estudiante de doctorado de la Universidad de Dublín que estaba haciendo una pasantía con nosotros financiado por la UE bajo el título de EXPERTO de red y participó por primera vez en la categoría de nivel mundial.
Nuestro sistema ganó la competencia por un gran margen. (una puntuación F1 de 49,5%, frente a 41,1% obtenido por el mejor sistema que no fuera Unbabel), Combinando un modelo lineal basado en características sintácticas, con tres sistemas de redes neuronales independientes, ensamblados.
Estos resultados fueron muy alentadores, pero el problema estaba aún lejos de resolverse. Si hubiera estado resuelto, entonces la traducción automática también estaría casi resuelta, ya que se le podría pedir a un sistema de estimación de la calidad que evaluara una larga lista de traducciones posibles y que tomara la mejor.

Superando nuestro propio récord mundial de Post-Edición automática 

Entonces, ¿Cómo podríamos mejorar aún más? Otra tecnología de la cual hacemos uso en Unbabel es la Post-Edición Automática (PEA por sus siglas en inglés), cuyo objetivo no es el de detectar errores o evaluar la calidad de la TA, si no automáticamente corregir una traducción. 
En nuestro ejemplo anterior, un buen resultado sería transformar la dolorosa «Hey lá, eu sou pesaroso sobre aquele!» en algo así como «Olá, peço desculpa pelo sucedido.»
Dada la natural similitud entre las tareas de Estimación de Calidad y Post-Edición Automática, decidimos unir nuestros esfuerzos para ver dónde podíamos lograr una mejor estimación de la calidad, mediante el uso de los resultados del sistema automático de Post-edición como una característica adicional.
Para probar la hipótesisnos asociamos con Marcin Junczys-Dowmunt, de la Universidad Adam Mickiewicz (UMA), el equipo que ganó la tarea de Post-Edición Automática en WMT 2016, y que han tenido un gran éxito con la creación de datos adicionales utilizando traducciones de «ida y vuelta» y combinando sistemas de redes neuronales de traducción automática, tanto monolingües como bilingües, aplicando un modelo logarítmico-lineal.
Los resultados superaron nuestras mejores expectativas: combinando el sistema de post-edición automática UMA y nuestro anterior sistema de estimación de la calidad a través de una técnica llamada «ensamblaje apilado”, los resultados fueron sorprendentes: mejoramos nuestro récord mundial del 49,5% hasta un nuevo nivel del 57,5% (una mejora absoluta de 8 puntos porcentuales). 
También logramos construir un sistema de puntuación de la calidad para las oraciones, con la obtención de una puntuación de correlación de Pearson del 65,6%, una ganancia absoluta de más del 13% sobre el mejor sistema anterior desarrollado por Yandex.
Nuestro éxito continuado aquí, significa que podemos hacer la estimación de la calidad útil en la práctica, ya que reduce los tiempos de post-edición y asegura traducciones rápidas y de alta calidad a los clientes de Unbabel. 


Los detalles completos están en nuestro documento TACL (ver aquí para un borrador), que acaba de ser aceptado para su publicación:
André F.T. Martins, Marcin Junczys-Dowmunt, Fabio N. Kepler, Ramon Astudillo, Chris Hokamp. «Superando los Límites de la Estimación de la Calidad de la Traducción.»
En las Transacciones de la Asociación de Lingüística Computacional, 2017 (aparecerá pronto).

ArtboardFacebook iconInstagram iconLinkedIn iconUnbabel BlogTwitter iconYouTube icon