Hay un dicho que afirma que si le das el mismo texto a diez personas diferentes, lo traducirán de diez formas distintas, todas ellas igualmente válidas. Después de todo, el lenguaje es muy subjetivo, así que en lo que a traducción se refiere, no hay una única respuesta universalmente aceptada. No obstante, los lingüistas tienen opiniones muy claras acerca de qué traducción expresa mejor el significado original del mensaje.

Y para nosotros, que buscamos la mejor calidad en nuestras traducciones, esto supone un gran reto. Y lo mismo se aplica a la anotación de errores de traducción. Los anotadores no siempre están de acuerdo, y no porque un error de traducción se haya categorizado erróneamente, sino porque el mismo error se puede categorizar de manera diferente según el punto de vista que se tenga en cuenta. Entonces, ¿cómo podemos entrenar a nuestros modelos para que sean precisos cuando ni siquiera nosotros somos capaces de ponernos de acuerdo en lo que está mal? ¿Y podría ser beneficiosa esta diversidad de opiniones?

El aprendizaje supervisado necesita ejemplos

En primer lugar, debemos ir un paso atrás: ¿por qué nos interesa lo que dicen los anotadores?

La razón es simple: actualmente, casi todos los métodos basados en IA que funcionan son métodos supervisados. Esto significa que aprenden de los ejemplos. En el caso del reconocimiento de imágenes, los ejemplos son imágenes con anotaciones en cuadros delimitadores con etiquetas (esta parte de la imagen es un gato, esta parte de la imagen es un perro, etc.). En el caso del reconocimiento de voz, los ejemplos son grabaciones de voz con la transcripción del texto, y en el de la traducción automática, frases con traducciones de ejemplo.

Algunas tareas requieren la clasificación de palabras o frases enteras en clases determinadas. El reto en el caso del reconocimiento de entidades nombradas (NER) es reconocer partes de la frase que indican ciertas clases de interés, como la ubicación, el nombre o la fecha.

Un ejemplo del tipo de datos utilizados en el reconocimiento de entidades nombradas: LOC es ubicación, ORG es organización, y GPE es entidad geopolítica. Ten en cuenta que una entidad puede constar de varias palabras. (Imagen de Huggingface, tomada de https://twitter.com/huggingface/status/1230870653194121216)

Estos datos etiquetados son la base de cualquier aplicación de aprendizaje automático que resulta efectiva en el mundo real, ya que estos ejemplos no solo entrenan a los modelos, sino que también evalúan si estos han aprendido realmente la tarea en cuestión. Porque no solo queremos que copien los ejemplos que se les han mostrado, sino que generalicen a los casos que no han visto. Por esta razón, siempre guardamos en la recámara una serie de ejemplos para utilizarlos más adelante.

Lo más importante que debemos tener en cuenta es que somos nosotros, los humanos, los que proporcionamos los ejemplos. Elaboramos cuidadosamente las traducciones de ejemplo, decidimos las categorías de las imágenes y elegimos la taxonomía de las clases que constituyen el sistema NER. Esta tarea de crear ejemplos con etiquetas se denomina anotación, y la persona encargada de llevarla a cabo es el anotador.

En Unbabel, utilizamos el marco Multidimensional Quality Metrics o MQM (parámetros de calidad multidimensional). Los anotadores constituyen un elemento clave dentro de este proceso, ya que se encargan de anotar los errores, una tarea que consiste en subrayar el alcance del error, clasificarlo y asignarle una gravedad (leve, grave o crítico). Se trata de un esfuerzo bilingüe que requiere que el anotador domine ambos idiomas.

Trabajan en distintos niveles. Una de sus tareas consiste en anotar el error de forma detallada y, por ejemplo, evaluar si las palabras están traducidas de forma incorrecta o son demasiado literales. Pero, a veces, la anotación de los errores se lleva a cabo a un nivel superior, como cuando se determina si una traducción es mejor que otra (clasificación) o si una es un 9/10 pero otra es un 3/10 (evaluación directa). En algunos casos, sobre todo cuando se trata de evaluaciones directas, puede resultar difícil saber qué ha impulsado al anotador a asignar esa calificación.

Porque esa es la cuestión, que los anotadores no siempre están de acuerdo. Cuando incorporamos nuevos anotadores al equipo, no es raro que haya desacuerdos en lo que respecta a un determinado error porque uno piense que es grave, otro crea que es leve, y el tercero opine que es crítico, por ejemplo. Y todos ellos están muy cualificados para desarrollar este trabajo, pero no se trata de una tarea fácil.

Los desacuerdos se deben a diversos motivos. En primer lugar, la tarea de anotación es inherentemente subjetiva. Los anotadores pueden tener preferencias distintas: algunos valoran más una mayor fluidez gramatical, mientras que a otros les parece más importante que se conserve el significado de la traducción.

Pero hay otras razones. A pesar de los esfuerzos que se hacen y del ajuste constante, las instrucciones no siempre son claras, ya que no podemos predecir todos los casos en los que se debe usar una etiqueta en particular y, como ya hemos dicho, el lenguaje es ambiguo y plantea dificultades cuando intentamos clasificarlo.

Además, los humanos cometemos errores. Muchos. También estamos llenos de prejuicios, tanto a nivel individual (por ejemplo, cuando siempre preferimos una lectura o interpretación antes que otra) como colectivo, en el sentido más sociocultural del término.

Por último, incluso la calidad de un buen anotador puede variar. Y si quieres comprobarlo, trata de hacer un examen de evaluación de idioma en tu propia lengua materna cuando estés cansado o distraído.

Pero aunque es normal que existan desacuerdos, esta situación puede llegar a convertirse en un problema. Si ellos no se ponen de acuerdo sobre la gravedad de un error, ¿cómo podemos averiguarla nosotros?

Cómo medir el desacuerdo

Para empezar, podríamos usar las características del proceso de anotación para medir la calidad. Pero eso puede resultar problemático. Tomemos, por ejemplo, el tiempo que tarda el anotador en completar la tarea, una cifra muy fácil de obtener. Estaríamos suponiendo que los anotadores rápidos trabajan demasiado deprisa y que, por lo tanto, son más propensos a cometer errores, mientras que los anotadores que tardan algo más son más minuciosos. Pero podría darse el caso de que los anotadores rápidos fuesen personas expertas y eficientes, mientras que los lentos tardasen más tiempo porque se estuviesen entreteniendo demasiado.

Es muy difícil diferenciar a los anotadores teniendo en cuenta únicamente características simples. Pero cuando los metadatos ofrecen más información acerca de la tarea, como las pulsaciones de teclas por parte de un editor, se puede predecir de forma mucho más acertada la calidad, como demuestra el Translator2Vec, un modelo desarrollado en Unbabel.

En lugar de fijarnos en los datos de comportamiento, podemos centrarnos en las propias predicciones. Si recopilamos diversas opiniones sobre el mismo elemento, podemos hacer algo más que describir, ¡podemos comparar! Y aquí es donde entra en juego el acuerdo entre anotadores (IAA, por sus siglas en inglés). El acuerdo entre anotadores suele medirse con estadísticas que resumen en una sola cifra el grado de acuerdo entre distintos anotadores. Tomemos el índice bruto de concordancia, que es el número de veces que los anotadores opinan lo mismo. Esto plantea un problema, ya que si las personas eligen etiquetas aleatorias con la suficiente frecuencia, es probable que en algún momento se pongan de acuerdo. Y eso es algo que no queremos contabilizar. Esa es precisamente la razón por la que el coeficiente kappa de Cohen goza de una aceptación mucho mayor, ya que rectifica estas concordancias fortuitas.

Esta idea puede aplicarse también a la medición de la uniformidad del trabajo realizado por un anotador o, en otras palabras, al acuerdoentre anotadores. Si la misma persona ha tomado distintas decisiones acerca del mismo elemento (sobre todo si ha pasado cierto tiempo entre una decisión y otra), los parámetros anteriores pueden utilizarse para analizar el trabajo del anotador.

Y, por tanto, pueden ayudarte a controlar la calidad de tus datos. Te proporcionan parámetros que pueden guiarte a la hora de tomar decisiones, como la de prescindir de los servicios de un anotador o la de descartar ciertos ejemplos. Pero no te dejes engañar, ya que todos los parámetros tienen sus inconvenientes, y el coeficiente kappa de Cohen no es una excepción.

¿Estás dispuesto a aceptar las discordancias?

¿Debemos castigar siempre la diferencia de opiniones? Ciertas tareas de etiquetado de datos son inherentemente ambiguas, y las discrepancias podrían indicarnos algo. Consideremos este ejemplo:

Ejemplo de anotaciones MQM de Unbabel del inglés al alemán llevadas a cabo por dos anotadores distintos. El amarillo es un error leve, mientras que el rojo es crítico . Este ejemplo se ha extraído de un lote de prueba utilizado internamente para formar y evaluar a anotadores. (La imagen se ha creado mediante una adaptación de Displacy).

La frase original es: «¿Podrías facilitarme también la nueva dirección de correo electrónico que deseas que adjunte a tu cuenta? ». El MQM de la primera anotación es 40, mientras que el de la segunda es 70. Está claro que los anotadores tienen puntos de vista diferentes, aunque coinciden claramente en una cosa (la palabra « neuen») y discrepan en otra (la parte final de la frase).

En este ejemplo, preferimos la segunda anotación. El primer anotador sostiene que el último fragmento de la frase es ininteligible, lo cual, según las pautas del MQM, significa que no se puede determinar la naturaleza exacta del error, pero que este ocasiona una pérdida importante de fluidez. Este es un error que se aplicaría a una secuencia confusa de caracteres y números, como la del siguiente caso: «El freno de dond esta કુતારો િસ S149235 parte númro,,.», que no es necesariamente lo que sucede en la frase anterior.

Pero podríamos argumentar que hay una cuestión interesante aquí. Si la última parte de la traducción contiene tantos errores que es casi imposible de entender, ¿no constituye esto una «pérdida grave de fluidez»?

Este ejemplo se ha extraído de un experimento en el que comparamos y alineamos a los anotadores. Como ambos anotadores son competentes y se puede entender la causa del desacuerdo, después de la observación anterior pasamos a la calibración, es decir, a asegurarnos de que todos los anotadores están en sintonía con nosotros y entre ellos.

Abrazando el caos

Siempre hay soluciones para tratar de atenuar este tipo de desacuerdos. A veces, los desacuerdos pueden reducirse proporcionando más orientación. Se trata de invertir más horas humanas y entender qué etiquetas y qué tareas son las causantes de los desacuerdos, y la solución puede consistir en el replanteamiento de las etiquetas, las herramientas, los incentivos y las interfaces. Se trata de un método probado y fiable que utilizamos aquí en Unbabel.

O puedes pedir a otros expertos que reparen tus datos. Cuando esto se hizo recientemente para un conjunto de datos NER clásico que aún se utilizaba, los investigadores detectaron errores de etiquetado en más del 5 % de la frase de prueba. Puede que esto no parezca muy significativo, pero es una cifra bastante alta para un conjunto de datos en el que el estado de los métodos automáticos alcanza un rendimiento de más del 93 %.

Un planteamiento interesante es el de combinar criterios. Si podemos obtener varias anotaciones del mismo dato, ¿por qué no combinarlas en una sola?

Tendemos a confiar en expertos porque creemos que son más precisos, minuciosos y, sobre todo, fiables. Dado que las anotaciones que utilizamos implican el uso de una taxonomía especializada de errores y requieren un alto grado de comprensión del idioma para ser utilizadas correctamente, apostamos por anotadores muy cualificados.

Pero he aquí lo fascinante: para algunas tareas que no utilizan una tipología muy especializada ni requieren un tipo de conocimiento específico, el criterio combinado de varias personas no expertas es tan fiable como el criterio de un único experto. En otras palabras, un número suficiente de personas no expertas ofrecen los mismos resultados que un solo experto. Y el número de no expertos necesarios para lograr esto es sorprendentemente bajo. Gracias a este tipo de conocimiento se creó Wikipedia, por ejemplo.

Encárgate de llevar a cabo el reconocimiento de la implicación textual (RTE). La implicación textual (RTE) es una relación lógica entre dos fragmentos de texto. Dicha relación se establece siempre que la veracidad de una frase se desprende de otra. Por ejemplo, «los precios del petróleo sedesploman» implica que«los precios del petróleose reducen», no que«el gobierno va a incrementar los precios del petróleo» (adaptado de Snow et al., 2018)

Adición de los criterios de varias personas no expertas a la calidad del criterio de un solo experto (adaptado de Snow et al., 2008).

Aquí, vemos cómo la adición de los criterios de personas no expertas puede mejorar la precisión de las anotaciones (línea negra). Y podemos potenciar esta mejora si comparamos el criterio de cada persona no experta con una puntuación generada automáticamente que se calcula a partir del grado de acuerdo con un experto, lo cual permite corregir de forma efectiva sus sesgos, tal y como muestra la línea azul.

En lugar de valorar a los anotadores en función de la confianza que tengas en ellos, también puedes tratar de calificar tus ejemplos según su dificultad. Por ejemplo, otorgando menos importancia a los ejemplos fáciles o incluso eliminando por completo los más rigurosos. La ventaja de los dos planteamientos anteriores es que los propios modelos pueden utilizarse para identificar a estos candidatos.

No obstante, es difícil eliminar todas las ambigüedades. Consideremos la traducción. Para una sola frase, hay muchas (posiblemente muchísimas) traducciones válidas y, seguramente, cada una de ellas priorice un aspecto diferente de la calidad de la traducción. Solo hay que pensar en las diversas traducciones que pueden hacerse de una novela por distintas personas o incluso en distintas épocas. Esto se tiene en cuenta de forma explícita en la evaluación de los sistemas de traducción, ya que se considera que la mejor práctica consiste en tener en cuenta siempre diversas traducciones válidas de referencia cuando se utiliza un parámetro automático. Por otra parte, en el entrenamiento de modelos de traducción automática, sigue planteándose la cuestión de cómo promover la diversidad o, en un sentido más amplio, cómo lidiar con la incertidumbre fundamental del trabajo de traducción.

Resulta que un exceso de consenso tampoco es bueno para los modelos. Cuando eso sucede, los anotadores pueden comenzar a dejar atrás patrones sencillos, los llamados «artefactos de los anotadores», que los modelos pueden captar fácilmente. El problema es ocasionado por características en el ejemplo de entrada que se correlacionan en gran medida con la etiqueta de salida, pero que no captan nada esencial sobre la tarea. Por ejemplo, si hay nieve en todas las imágenes de lobos que se utilizan para el entrenamiento, pero no la hay en ninguna de las imágenes de huskies, esta característica es muy fácil de detectar y puede llevar a confusión. Los modelos fallan si asumen que la falta de nieve es lo que caracteriza a un husky. En la práctica, el aprendizaje de este tipo de relación evitará la generalización a ejemplos que no muestren esta correlación. Y esta generalización es precisamente lo que buscamos.

En algún momento, tendrás que abrazar el caos. La diversidad de datos es algo bueno, y debemos apreciarla. Desde este punto de vista, el desacuerdo de los anotadores es una señal, no ruido. Incluso podríamos hacer de la ambigüedad una característica explícita de nuestros modelos, un planteamiento que se ha aplicado con éxito en la estimación de la calidad de los sistemas de traducción automática.

Si quieres ir un paso más allá, puedes crear un conjunto de datos que contenga ambigüedades de forma intencionada. En lugar de proporcionar una sola etiqueta para los puntos de datos, los anotadores pueden utilizar múltiples etiquetas, y en lugar de asignar un solo anotador a cada elemento, se solicita el criterio de varios anotadores. Esta variedad de criterios permite crear un conjunto de datos con múltiples respuestas correctas, cada una de ellas calificada según una puntuación de desacuerdo que indica la confianza en esa etiqueta.

Tomemos el ejemplo anterior, que muestra los resultados de ese trabajo. La tarea consiste en reconocer los múltiples sentidos posibles de las palabras («encuadres») para poder hacerse una idea de la incertidumbre que rodea a cada elemento. Esta incertidumbre se expresa por el peso asignado a las clases y a las frases (Dumitrache et al., 2019). La puntuación de la etiqueta es el grado de acuerdo alcanzado entre los anotadores con respecto a esa etiqueta específica teniendo en cuenta la calidad del anotador. Por otra parte, la puntuación de la frase es el grado en el que todos los anotadores han coincidido con respecto a todas las etiquetas de la frase.

En su investigación, Anca Dumitrache y sus colaboradores «encontraron muchos ejemplos en los que la semántica de los encuadres individuales se superpone lo suficiente como para que constituyan alternativas aceptables para interpretar una frase». Ella argumenta que ignorar esta ambigüedad crea un objetivo demasiado arbitrario para el entrenamiento y la evaluación de los sistemas de procesamiento del lenguaje natural: «Si las personas no somos capaces de ponernos de acuerdo, ¿por qué deberíamos esperar que la respuesta de una máquina fuese diferente?».

Y, de hecho, nuestra investigación evoluciona constantemente en esta dirección. Esta variedad de anotaciones en realidad nos ayuda a crear mejores etiquetas, mejores herramientas y, en última instancia, mejores modelos de aprendizaje automático. Y aunque una persona que es bastante organizada normalmente no admitiría esto, a veces solo necesitas dejar de preocuparte y aprender a abrazar el caos.

Fuentes

  • Lora Aroyo, Chris Welty, 2015, “Truth Is a Lie: Crowd Truth and the Seven Myths of Human Annotation”, Association for the Advancement of Artificial Intelligence, https://www.aaai.org/ojs/index.php/aimagazine/article/view/2564
  • Trevor Cohn, Lucia Specia, 2013, “Modelling Annotator Bias with Multi-task Gaussian Processes: An Application to Machine Translation Quality Estimation”, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), https://www.aclweb.org/anthology/P13-1004
  • Anca Dumitrache, Lora Aroyo, Chris Welty, 2019, “A Crowdsourced Frame Disambiguation Corpus with Ambiguity”, https://arxiv.org/pdf/1904.06101.pdf
  • Mor Geva, Yoav Goldberg, Jonathan Berant, 2019, “Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets”, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, https://www.aclweb.org/anthology/D19-1107.pdf
  • Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman, Noah A. Smith, 2018, “Annotation Artifacts in Natural Language Inference Data”, Proceedings of NAACL-HLT 2018, https://www.aclweb.org/anthology/N18-2017.pdf
  • Emily K. Jamison and Iryna Gurevych, 2015, “Noise or additional information? Leveraging crowdsource annotation item agreement for natural language tasks.”, Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, https://www.aclweb.org/anthology/D15-1035.pdf
  • Rabeeh Karimi Mahabadi, James Henderson, 2019, “Simple but Effective Techniques to Reduce Dataset Biases”, https://arxiv.org/pdf/1909.06321.pdf
  • Ronan Le Bras, Swabha Swayamdipta, Chandra Bhagavatula, Rowan Zellers, Matthew E. Peters, Ashish Sabharwal, Yejin Choi, 2020, “Adversarial Filters of Dataset Biases”, https://arxiv.org/pdf/2002.04108.pdf
  • Rion Snow, Brendan O’Connor, Daniel Jurafsky, Andrew Ng, 2008, “Cheap and Fast – But is it Good? Evaluating Non-Expert Annotations for Natural Language Tasks”, Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, https://www.aclweb.org/anthology/D08-1027.pdf
  • Zihan Wang, Jingbo Shang, Liyuan Liu, Lihao Lu, Jiacheng Liu, Jiawei Han, 2019, “CrossWeigh: Training Named Entity Tagger from Imperfect Annotations”, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, https://www.aclweb.org/anthology/D19-1519.pdf