En 1954 el futuro estaba claro: los traductores de carne y hueso iban a quedar obsoletos en pocos años.

Al menos eso es lo que los investigadores de IBM anunciaron con orgullo en la primera presentación pública de su sistema de traducción automática.

Ahora sabemos lo lejos que estaba (y sigue estando) esa afirmación de ser cierta. Pero incluso en los comienzos de la traducción automática, en los años de la posguerra, no todas las expectativas eran igual de optimistas.

De hecho, en 1947 el científico y pionero estadounidense Warren Weaver dijo:

Es normal que uno se pregunte si el problema de la traducción podría tratarse como un problema criptográfico. Cuando veo un artículo en ruso, pienso: «En realidad está escrito en inglés, pero ha sido codificado con símbolos extraños. Y me dispongo a decodificarlo».

Unos años más tarde, Weaver afirmó: «Ninguna mente razonable cree posible que la traducción automática sea capaz de alcanzar un estilo pulido y elegante».

Lo cierto es que para traducir no basta con tener un anillo decodificador. Si alguna vez has intentado traducir un poema o una obra literaria con un traductor automático, sabrás que el resultado se asemeja a un intento de decodificar un mensaje secreto.

Por este motivo, los humanos desempeñan un papel indispensable en esta labor. Nuestro conocimiento inigualable del mundo resulta crucial a la hora de traducir. Las personas son capaces de comprender el contexto de una conversación, el trasfondo cultural y los significados implícitos. Los sistemas informáticos aún no han desarrollado estas habilidades. Como afirma Vasco Pedro, nuestro director general: «Lossistemas de traducción automática están entrenados para leer oraciones paralelas, algo parecido a enseñar a un loro a hablar; puede que el loro hable, pero nunca va a entender realmente lo que dice».

Esto explica por qué, a pesar de los extraordinarios desarrollos en traducción automática de los últimos años, este servicio aún no ha alcanzado el nivel necesario para poder encargarse de este trabajo sin supervisión humana. Es aquí donde entra en juego la estimación de calidad (QE).

En Unbabel hemos implementado sistemas de vanguardia de QE para producir traducciones rápidas, precisas y a gran escala para muchos de nuestros clientes, entre los que se incluyen empresas como Booking.com, Microsoft, Skyscanner y Pinterest.

Dado que la QE desempeña un papel fundamental en nuestra empresa, he decidido escribir este artículo para explicar por qué creo que la QE es el eslabón perdido en la traducción y cómo va a contribuir OpenKiwi (nuestro nuevo marco de trabajo de código abierto de QE) a mejorar la traducción automática revisada por humanos.

¿Qué es la estimación de calidad de una traducción?

Antes de profundizar en cómo puede mejorar la QE las traducciones automáticas, es importante saber de qué estamos hablando.

La estimación de calidad es lo que usamos para evaluar la calidad de un sistema de traducción sin acceder a las traducciones de referencia. En otras palabras, su objetivo es determinar lo buena o mala que es una traducción sin intervención humana.

Puede utilizarse con diversos fines:

  • Para informar a un usuario meta sobre la fiabilidad del contenido traducido;
  • Para decidir si una traducción está lista para ser publicada o si requiere posedición humana;
  • Para determinar qué palabras hay que modificar.

Unbabel usa la QE para garantizar que, si una traducción no alcanza nuestras expectativas de calidad, nuestra comunidad bilingüe formada por más de 100,000 traductores la va a revisar antes de entregarla. Nuestros editores pueden corregir rápidamente los errores y proporcionar traducciones de alta calidad a nuestros clientes. Cuanto más contenido traduzcamos, más aprenderá el sistema y menos errores cometerá en el futuro.

Por lo tanto, una buena QE reduce la carga de trabajo de los traductores humanos. Gracias al sistema automático que resalta los errores de un texto antes de que comience la parte humana del proceso, los traductores pueden centrarse exclusivamente en aquellas partes del contenido que requieran atención.

En los últimos años, hemos sido testigos de los grandes logros que ha conseguido la combinación de la tecnología y de nuestra comunidad. Queremos que nuestra comunidad esté aún más integrada en nuestros sistemas y procesos, y por ello hemos creado OpenKiwi, un marco de colaboración para la estimación de calidad.

Open Source Framework for Quality Estimation

OpenKiwi: un marco de código abierto para la comunidad de traducción automática

Unbabel utiliza modelos de traducción automática en sistemas de producción de 14 pares de idiomas, y la cobertura y el rendimiento mejoran con el tiempo gracias al creciente contenido que producen nuestros traductores humanos a diario. La combinación de IA (inteligencia artificial) y de traductores humanos consigue que nuestro proceso de traducción sea mejor y más rápido.

Sin embargo, hasta ahora, nuestros premiados sistemas de estimación de calidad no estaban disponibles para investigadores externos, lo cual ponía límites a lo que podríamos lograr juntos. En Unbabel creemos firmemente en la investigación replicable y colaborativa. Queremos que toda la comunidad de investigadores de IA (inteligencia artificial) se beneficie de nuestros hallazgos y queremos crear, desarrollarnos y experimentar juntos.

Este objetivo nos llevó a crear OpenKiwi.

OpenKiwi es un marco de trabajo de código abierto que pone en práctica los mejores sistemas de estimación de calidad, lo que hace que sea realmente fácil hacer experimentos con estos modelos y repetirlos en el mismo marco, así como desarrollar nuevos modelos. La combinación de estos modelos nos permite lograr los mejores resultados en la estimación de calidad a nivel de palabra.

El poder del código abierto

Habrá muchas personas que se pregunten por qué hemos creado un marco de trabajo de código abierto en lugar de guardar en secreto nuestros avances en QE. Si hay algo en lo que creemos, es en la colaboración.

No hace mucho, los obstáculos para acceder incluso a proyectos de software básicos eran bastante notables. Se tardaban meses en reproducir los resultados de un trabajo de investigación, por el mero hecho de que el código en el que se basaba el proyecto no estaba disponible.

El software de código abierto tiene un número de beneficios que supera con creces los inconvenientes que cabría esperar. Al permitir que otros accedan a lo que hemos construido, no solo ampliamos la comunidad de expertos con la que trabajamos, sino que juntos podemos mejorar a una mayor velocidad. En cuestiones de código abierto, incluso los problemas más insignificantes se detectan, se señalan y se corrigen mucho antes.

Piensa en la propia traducción automática. Este campo se ha beneficiado enormemente de programas de código abierto como Moses, OpenNMT y Marian, entre muchos otros. Estos proyectos consiguieron unir a una gran comunidad de colaboradores (profesionales de la traducción e investigadores) que están realizando los avances más punteros en el campo de la traducción automática. También contribuimos con algunos de estos proyectos. ¡Y nos encanta!

Sin embargo, no existía ningún equivalente en la estimación de calidad. Es un área en la que hay pocas iniciativas de código abierto, cuyo uso se reduce al ámbito académico y que, hasta ahora, no habían suscitado el mismo interés. Con OpenKiwi nos proponemos llenar este vacío.

Al poner OpenKiwi a la disposición de nuestra comunidad, sin duda vamos a contribuir a innovar y a dar forma al futuro de la traducción.

A pesar de todos los avances, la traducción automática sigue siendo un proceso muy mecánico, al menos por ahora. Sin embargo, si la combinamos con los datos obtenidos y con el trabajo de editores humanos que conocen su idioma a la perfección, la traducción automática está lista para permitir el acceso a nuevos contenidos, mejorar las relaciones entre los consumidores y las empresas y posibilitar la comunicación en todo el mundo.