Más grande, más fuerte, más rápida… A menudo, en la carrera por la supremacía de la IA, da la impresión de que damos más importancia a las victorias rápidas que a cualquier otra cosa.

Estamos familiarizados con la IA, y muchas de las tecnologías que utilizamos a diario para proporcionarnos buenas experiencias se basan en ella, desde sistemas de recomendaciones básicas que guían nuestras compras hasta otros procedimientos más complejos, como el reconocimiento facial en cada imagen que publicamos en internet. Y hemos sido testigos en los últimos años del auge del aprendizaje profundo y las redes neuronales, el cual ha contribuido a mejorar el rendimiento a una velocidad asombrosa. El procesamiento del lenguaje natural no ha sido una excepción y, hace aproximadamente tres años, los investigadores aplicaron con éxito estos modelos a la traducción automática. Pronto se corrió la voz, cuando tanto Google como Microsoft afirmaron haber alcanzado una calidad igual a la humana.

¿Pero cuál es el problema? Que estos modelos necesitan datos. Muchísimos datos. Además, necesitan recursos informáticos excepcionalmente grandes que consumen en unidades especializadas denominadas GPU, que gastan mucha más energía que las CPU tradicionales. Según datos de la Agencia Internacional de la Energía, se estima que los centros de datos consumieron 195 TWh en el 2017, lo cual constituyó el 1 % de la demanda total mundial de electricidad. Y aunque el mismo informe predice que la demanda de más recursos informáticos y el incremento en el volumen de trabajo de los centros de datos se contrarrestará con mejoras en la eficiencia de diversos componentes de estas unidades, no debemos ignorar la huella energética de las técnicas actuales de aprendizaje profundo.

¿Puede ser responsable la IA?

La huella de carbono de la IA

Por un lado, la IA es cada vez más eficiente. Ejemplo de ello son las tecnologías de enfriamiento de centros de datos, desarrolladas de forma pionera por DeepMind y Huawei, o TPU, un dispositivo creado por Google que permite que las empresas entrenen sus modelos de una forma más rápida y eficiente.

Pero el propio sector también forma parte del problema. En un estudio comparativo, OpenAI señaló que existía una tendencia a que la cantidad de recursos informáticos utilizados para los entrenamientos se duplicase cada 3,5 meses (para que te hagas una idea de las magnitudes de las que estamos hablando, la ley de Moore establecía que se producía una duplicación cada 18 meses). Y estas cifras están comenzando a generar polémica. En el congreso de la ACL celebrado en agosto del 2019 en Florencia, la investigadora Emma Strubell presentó un documento titulado « Consideraciones sobre energía y políticas en relación conel aprendizaje profundo en el PLN», el cual suscitó cierta controversia .

En su estudio, presentó los costes de consumo derivados del entrenamiento de diferentes modelos de última generación y los comparó, por ejemplo, con la huella de carbono de un pasajero que viaja de Nueva York a San Francisco en avión, la vida útil media de un automóvil o incluso la duración media de la vida humana. En particular, Strubell señaló el impacto producido por la optimización masiva de hiperparámetros y la búsqueda de arquitectura, técnicas de exploración que, cuando se aplican de una forma tan intensiva, pueden considerarse como herramientas de fuerza bruta con las que se pretende encontrar el mejor modelo para desempeñar una tarea específica. Estos valores superan a todos los demás en muchos órdenes de magnitud.

Incluso si consideramos que podemos utilizar centros cuyo suministro de energía proceda parcial o totalmente de fuentes de energía renovables, lo cual no es el caso por ahora, estos números son muy reveladores.

¿Cómo hemos llegado hasta aquí?

La mayoría de las tareas del PLN han comenzado a beneficiarse de las redes neuronales recurrentes clásicas a lo largo de la última década. La palabra «recurrente» se refiere a la forma en la que funcionan estos modelos: consumen las palabras de una en una y generan un estado o un resultado necesarios para la tarea. Este estado o resultado se introduce nuevamente en el modelo para ayudar a generar el siguiente. Se trata de un mecanismo costoso que, en comparación con los modelos que suelen utilizarse en otros ámbitos, puede resultar más lento en cuanto al tiempo de entrenamiento, especialmente si permitimos secuencias muy largas.

Posteriormente, apareció un nuevo mecanismo en la traducción automática, la «atención». Este nuevo método proporcionó a los investigadores una herramienta para comprender mejor los resultados, al indicarles qué palabras originales tenía en cuenta el modelo para generar cada una de las palabras traducidas. En particular, la atención no necesitaba consumir las entradas secuencialmente, por lo que rápidamente dio lugar una serie de métodos y aplicaciones. Poco después, la comunidad decidió que era justamente eso lo que necesitaba, así que asistimos al auge de los Transformers, que, en lugar de basarse en la recurrencia, se constituyen a partir de la combinación de este mecanismo y una red neuronal no recurrente más simple. Estos modelos, aunque eran más grandes, eran capaces de lograr mejores resultados en diversas tareas con un número significativamente reducido de FLOP (operaciones de punto flotante por segundo, una medida común de eficiencia cuando se utilizan GPU), lo cual era positivo en relación con el aprovechamiento de recursos.

Finalmente, los investigadores recurrieron al entrenamiento previo de algunos de los componentes básicos fundamentales de los modelos del PLN. Para ello, recopilaron una gran cantidad de textos escritos que, en lugar de requerir etiquetas u oraciones paralelas en otros idiomas, podían usarse directamente mediante métodos no supervisados. Con solo mirar el texto y la forma natural en la que se construyen las oraciones y se agrupan las palabras, lograron entrenar mejores representaciones de palabras. En lugar de resolver una tarea directamente y dejar que aprendiese todo lo necesario, estas representaciones podían conectarse a otros modelos, los cuales se utilizaban para tareas posteriores. Esto, a lo que se denomina preentrenamiento del modelo de lenguaje (y que ha recibido diversos nombres graciosos, comoELMo ,BERT , Ernie2.0 y RoBERTa , y otros no tanto, como GPT o XLNet ), y que requiere de grandes cantidades de datos y, en algunos casos, de una gran cantidad de recursos, comenzó a dominar las tareas de modelación y generación del lenguaje.

Con estos nuevos modelos, la necesidad de mostrar mejoras rápidamente y lograr posicionarse a la vanguardia, el número de documentos de las últimas conferencias que mostraban el logro de resultados con la utilización de una cantidad masiva de recursos comenzó a incrementarse.

Si nos fijamos en la mayoría de los documentos (excepto los que no informan sobre los recursos utilizados), cada vez es más común observar que los entrenamientos se ejecutan en decenas de GPU durante varios días, o incluso semanas. En el caso de GPT, por ejemplo, el modelo requería ocho GPU para poder recibir entrenamiento durante todo un mes. GPT-2, su sucesor, tiene un número de parámetros diez veces mayor y se entrenó con un número de datos también diez veces mayor. Y en esta investigación, se llevaron a cabo varios experimentos para lograr una mejora moderada, con un entrenamiento total de más de tres meses en 512 GPU.

Muchos investigadores se cuestionan la importancia de estar a la vanguardia cuando esto se logra exclusivamente mediante el empleo de fuerza bruta, y debaten acerca de las implicaciones de las tablas de clasificación, que solo tienen en cuenta el único parámetro que se está tratando de optimizar. Cada vez está menos claro si estas mejoras se logran gracias a los métodos o simplemente a la gran cantidad de potencia y recursos informáticos que se utilizan. Y si no somos capaces de determinar a qué se deben las mejoras, es justo cuestionarse el proceso mediante el cual se seleccionan estos documentos para las principales conferencias.

Una crisis de reproducibilidad

Además del coste y de la huella energética, estos modelos presentan otros problemas. Los enormes recursos no solo son caros desde el punto de vista energético. Son caros en todos los aspectos. Y, por lo general, solo las grandes empresas o grupos de investigación disponen del capital necesario para llevar a cabo este tipo de experimentos.

Existen otras barreras además de la cantidad de recursos, y los investigadores han criticado esta crisis de reproducibilidad y han señalado una serie de tendencias preocupantes, entre las que se encuentran la incapacidad de distinguir entre las mejoras debidas a la arquitectura y las que tienen su origen en la optimización. Algunos investigadores han abogado por informar sobre más aspectos, y han propuesto incluir informes presupuestarios y listas de comprobación de reproducibilidad para aumentar la transparencia. NeurIPS, por ejemplo, comenzó a pedir a los investigadores que enviaran sus propias listas de comprobación.

Lo que afirman estos grupos es que estos modelos son reutilizables. Lo que afirman estos grupos es que estos modelos son reutilizables. Que si se crean con código abierto, tal y como hacen muchas empresas en la actualidad, podrían conectarse para llevar a cabo experimentos o tareas posteriores y utilizarse tal y como están, de tal forma que las empresas más pequeñas no tuviesen que reproducirlas por su cuenta. Pero las cosas nunca son tan sencillas. Estos modelos no son infalibles, y todos estamos familiarizados con las deficiencias de la IA, particularmente en lo que se refiere a los prejuicios. Tal y como escribió recientemente mi compañera Christine, tenemos que reflexionar acerca de los datos con los que alimentamos nuestros modelos, ya que pueden reforzar nuestros prejuicios, «conducir a la discriminación en los procesos de contratación o de solicitud de préstamos, e incluso en el sistema de justicia penal».Por lo tanto, es bastante audaz suponer que nunca va a ser necesario volver a revisar estos modelos.

Hacia una IA responsable

Cuando hablamos de IA, la mayor parte de la gente se imagina o bien una utopía o bien un escenario apocalíptico. Normalmente, lo segundo. No obstante, dado que aún estamos lejos de que pueda llegar a vulnerarse la seguridad de la inteligencia artificial real, debemos ocuparnos de otros asuntos que resultan más apremiantes. Como investigadores centrados en el ámbito de la IA, debemos fomentar este debate y reflexionar acerca de la repercusión de nuestra labor en este momento. Tenemos que tener en cuenta la huella de carbono de los modelos que entrenamos, especialmente en un momento en el que millones de jóvenes están manifestándose y presionando a nuestros gobiernos para que luchen contra el calentamiento global.

Según Strubell, podemos ser más responsables y mejorar la equidad en la investigación del PLN mediante una serie de esfuerzos, entre los que se incluyen la priorización de algoritmos y hardware eficientes desde el punto de vista informático (e incluso de mejores técnicas de ajuste de hiperparámetros) y el suministro de información acerca del presupuesto ejecutado, algo esencial para arrojar algo de luz sobre estas afirmaciones sobre lo vanguardista.

Pero podríamos hacer más cosas. Podríamos centrarnos más en líneas de investigación en las que se favorezca la eficiencia de forma natural, como la selección de datos y los campos de limpieza de datos, así como en los escenarios de bajos recursos, entre otras cosas. Y tal vez sea hora de que las principales conferencias tomen la iniciativa para hacer cumplir estos valores y tengan en cuenta, por ejemplo, la huella de carbono de un modelo a la hora de incluirlo en las tablas de clasificación.

No existe una solución rápida, pero muchos de estos pequeños cambios podrían resultar útiles. Y el simple hecho de que estos temas reciban cada vez más atención es un indicador positivo de que nosotros, como comunidad, queremos avanzar hacia soluciones mejores.