Cuando era niño, pensaba que de mayor sería matemático o físico. Desde muy joven supe que quería estudiar e investigar, o incluso convertirme en profesor, en uno de esos campos. No sabía qué era la IA (inteligencia artificial). De hecho, durante los primeros años como estudiante del graduado en Ciencias de la Computación, muchas veces sentí que debía cambiarme a las matemáticas. Me alegro de no haberlo hecho.

Sin embargo, mi abuela no entiende muy bien cuál es mi trabajo porque para entenderlo tienes que utilizar Internet. Si no lo haces y yo te digo que en Unbabel estamos haciendo que los ordenadores lleven a cabo acciones humanas de forma automática, probablemente te quedes ahí sentado mirándome fijamente sin entender nada.

En cierto modo, no he acabado en un lugar muy diferente del que había imaginado cuando era niño. Quiero decir, todo este campo de la traducción automática comenzó con Warren Weaver después de la Segunda Guerra Mundial, después de que Allen Turing, un matemático, descifrara el código Enigma.

La idea es que podemos tratar el lenguaje como un código. La diferencia es que los códigos son formales, inequívocos; y lo que hace tan difícil la traducción es precisamente la ambigüedad.

El estado de la traducción automática

Algunas personas tienen alguna noción de lo que hace Unbabel: traducimos un texto escrito en un idioma específico a un idioma diferente. Pero otros ni siquiera saben qué es la inteligencia artificial. Algunos podrían pensar que todo lo que hace la IA son “cosas de robots”, pero no es así. Lo que de alguna manera está haciendo la IA es imitar el comportamiento humano y en algunas cosas es incluso mejor que los humanos .

Empecemos con lo básico: ¿qué hacen los sistemas de aprendizaje automático? Se les presenta un objeto de origen, en este caso una oración, y se les pide que predigan algo, una oración objetivo.

Lo difícil de la traducción es que no hay ninguna regla de oro. Una regla de oro representa la verdad. Si estás intentando que una máquina detecte imágenes preguntando “¿es esto un gato o un perro?”, hay una verdad absoluta porque una imagen específica sería uno o lo otro. En la traducción automática esto no existe porque puedes tener 20 traducciones diferentes que son igual de buenas. Es un problema mucho más difícil para empezar. ¿Qué es una buena traducción y qué no? También está el hecho de que el lenguaje es altamente ambiguo. Las palabras pueden significar cosas muy diferentes en distintos contextos. Y así, el problema de la traducción está en gran parte sin resolver.

Si profundizas en la traducción automática, verás que no es mucho mejor de lo que era hace unos años, a pesar de lo que piensa la mayoría de la gente. Los resultados anteriores de los sistemas de traducción automática estadística resultaban muy poco naturales o mecánicos. Hoy pueden parecer más fluidos, pero son menos adecuados que los anteriores, que normalmente tenían el contenido correcto, aunque pudiera resultar más difícil de entender. Hoy en día, las traducciones automáticas pueden fallar catastróficamente en términos de contenido y aún así seguir sonando con fluidez. En general es un sistema mejor.

La traducción automática ha llegado a un punto en el que uno puede al menos comprender la esencia del texto. Se está volviendo más fluido, a pesar de que los modelos siguen siendo muy básicos y tienen escaso conocimiento del idioma. Todavía están trabajando principalmente a un nivel de oración por oración. Así que cualquiera que piense que la traducción automática está resuelta, claramente no la ha utilizado.

Para Unbabel, como compañía que vende sus soluciones de asistencia multilingüe a grandes empresas que interactúan con miles o millones de clientes a diario, plantea un problema porque la mayoría de las veces, cuando mencionas la traducción automática, la gente piensa de inmediato en los errores que comete. No puedes inventar historias para que parezca que la traducción automática es perfecta: está donde está en este punto. Todavía requiere de un humano que esté pendiente para darle esa pizca extra de calidad.

En el chat, por ejemplo, hay una persona que realmente está hablando con otra persona, lo que significa que puedes recuperarte de los errores mucho más rápido. Si dices algo que no tiene sentido, la persona del otro extremo podría decir “¿qué? no lo he entendido” y entonces volverás a intentar la traducción.

Básicamente, esto significa que estás siendo tu propia estimación de calidad porque, al final del día, lo que quieres es un diálogo que funcione.

La importancia de la estimación de la calidad

La estimación de la calidad, lo que utilizamos para evaluar la calidad de un sistema de traducción sin acceso a traducciones de referencia o intervención humana, es el secreto de la traducción automática. De hecho, algunas personas han afirmado que podría resolver el problema de “¿cuál es la traducción correcta?” porque ahora tenemos un sistema implementado que evalúa cómo de buena o mala es una traducción. No significa necesariamente que una traducción sea la correcta, pero es una traducción correcta.

Pero la estimación de la calidad tiene las mismas dificultades que la traducción automática, lo que significa que puedes esperar el mismo nivel de precisión. El mayor problema de la traducción automática es que siempre comete errores porque el lenguaje es muy difícil de entender. Ya sea debido a modelos que son demasiado simples a causa de la potencia computacional, o al hecho de que cualquier sistema de aprendizaje automático cometerá errores, los mejores resultados se sitúan alrededor del 90 por ciento. Eso puede que parezca mucho pero, si lo piensas, significa que una de cada diez oraciones va a estar mal.

La estimación de la calidad está intentando predecir esas oraciones incorrectas o al menos intentar juzgar si un error es crítico o no. Básicamente, nos permitirá utilizar la traducción automática con un grado de confianza mucho mayor.

En Unbabel, hemos dedicado gran parte de nuestro tiempo a resolver el problema de la estimación de la calidad. El equipo fundamental de IA es el que más se ha centrado en él, descubriendo nuevos modelos. Luego, se ha trabajado mucho en IA aplicada y producción, para responder a preguntas como:

  • ¿Cómo funciona esto en la línea de producción?
  • ¿Es escalable? ¿Necesitamos cambiar el objetivo?
  • ¿Cómo funciona con nuestros datos prácticos?
  • ¿Cómo se lleva a cabo la adaptación de estos modelos?

Dado que la IA fundamental trabaja sobre todo con datos de dominio genérico, la IA aplicada debe utilizarlos y asegurarse de que funcionen en nuestros chats y tickets diarios, de si funcionan con tonos diferenciados o no. Primero está la investigación, y después se trabaja en incorporar esos resultados al producto.

Creemos firmemente en nuestros sistemas de estimación de calidad. También creemos en la investigación reproducible y colaborativa, por lo que hace unos meses creamos Open Kiwi, un marco de código abierto que implementa los mejores sistemas de estimación de calidad, lo que hace que sea muy fácil experimentar e iterar con estos modelos en el mismo marco, así como desarrollar nuevos modelos.

Probablemente, fuimos una de las primeras empresas que comenzaron a utilizar la estimación de la calidad en la producción y hemos estado investigando sobre el tema durante mucho tiempo. Esto significa que tenemos mejores modelos y una mejor comprensión del problema que otras empresas o investigadores que trabajan en estimación de la calidad.

Y los premios son para…

Por eso me alegré mucho de haber recuperado nuestro título de mejor sistema global de Estimación de Calidad en Traducción Automática en la Conferencia para la Traducción Automática Mundial, a principios de este año. No solo eso, sino que también ganamos el concurso de post-edición automática.

Fue muy importante para nosotros por dos razones. La primera es el impacto que la estimación de calidad está teniendo en nuestra línea de producción, el retorno de inversión que estamos obteniendo a cambio. Y por eso, no importa si ganamos esta o cualquier otra competición.

Pero, por otro lado, ganar premios tan prestigiosos significa el reconocimiento de la marca Unbabel, que es esencial para captar la atención de clientes e inversores. También es un reconocimiento importante para el equipo de IA, cuyo trabajo a veces es difícil de entender y reconocer. La IA es un asunto de alto riesgo, alto rendimiento. Puedes trabajar durante un año y no llegar a ninguna parte. Por ejemplo, todo el trabajo que hicimos en nuestra estimación de la calidad humana no funcionó, porque simplemente no disponíamos de las herramientas adecuadas para ello.

Y así, estos premios son buenos para el reconocimiento, para incrementar la percepción del nombre de Unbabel en los negocios y en el mundo académico, pero también son buenos para la moral. Unbabel es puramente una compañía de IA. No solo estamos usando IA; en realidad, estamos creando y descubriendo IA que aún no existe. Y ser reconocido públicamente por eso lo significa todo para mí. Creo que mi aspirante a matemático de 9 años estaría orgulloso.