Più grande, più forte, più veloce — nella corsa per la supremazia della IA, spesso è dura scrollarsi di dosso la sensazione che stiamo privilegiando le rapide vittorie su tutto il resto.

Non siamo estranei alla IA e molte delle tecnologie che utilizziamo quotidianamente si basano su di essa per poterci fornire esperienze positive — dai sistemi di raccomandazione di base che guidano i nostri acquisti, al più complesso riconoscimento facciale in tutte le immagini che pubblichiamo online. E negli ultimi anni abbiamo assistito all’ascesa dell’apprendimento profondo e delle reti neurali, che migliorano la performance ad un ritmo sorprendente. L’elaborazione del linguaggio naturale non ha fatto eccezione e circa tre anni fa, i ricercatori hanno applicato con successo questi modelli alla traduzione automatica. La notizia si è presto diffusa quando sia Google che Microsoft hanno affermato di aver raggiunto la parità umana.

La fregatura? Questi modelli richiedono dati. Ma proprio tanti. E anche risorse di calcolo eccezionalmente grandi, i quali calcoli avvengono all’interno di unità specializzate chiamate GPU e che consumano molta più energia rispetto alle tradizionali CPU. Secondo il rapporto dell’Agenzia internazionale dell’energia, è stato stimato che i data center da soli abbiano costituito l’1% della domanda globale di elettricità nel 2017, un consumo di circa 195TWh. E anche se lo stesso rapporto prevede che l’aumento della domanda di calcoli e del carico di lavoro dei data center sarà controbilanciato dal miglioramento dell’efficienza di una serie di componenti di queste unità, non dovremmo ignorare l’impronta energetica delle attuali tecniche di apprendimento profondo.

Può esserci qualcosa come la IA responsabile?

L’impronta di carbonio della IA

Da una parte, la IA sta guidando se stessa ad essere più efficiente che mai. Prendiamo DeepMind e Huawei, tecnologie pionieristiche di raffreddamento del data center, o Google, che ha creato TPU, un dispositivo che consente alle aziende di formare i propri modelli più velocemente ed in maniera più efficiente.

Ma l’industria è anche parte del problema. In uno studio comparativo, OpenAI ha evidenziato la tendenza per cui la quantità di calcoli utilizzata per le sessioni di formazione raddoppiava nel tempo di 3.5 mesi (per avere un’idea della scala, nella Legge di Moore il periodo di raddoppio era di 18 mesi). E questi numeri iniziano a far sollevare alcune sopracciglia. Proprio lo scorso agosto, alla ACL 2019 a Firenze, la ricercatrice Emma Strubell ha presentato un documento intitolato Considerazioni energetiche e politiche sull’apprendimento profondo nel NLP che è stato accolto con qualche dissenso.

Nel suo studio ha presentato i costi di consumo per formare diversi modelli all’avanguardia e li ha confrontati, ad esempio, con l’impronta di un passeggero che viaggia da New York a San Francisco in aereo, con la vita media di un’auto, o anche con la vita media umana. In particolare, Strubell mette in evidenza l’impatto della massiccia messa a punto iper-parametrica e ricerca dell’architettura, le tecniche per esplorare queste fino ai loro limiti possono essere considerate un approccio brutale per trovare il modello migliore per un compito specifico. Questi valori superano tutti gli altri per ordini di grandezza multipli.

Anche se consideriamo che potremmo semplicemente spostarci in centri alimentati principalmente o totalmente da energie rinnovabili — cosa che sappiamo non essere il caso per ora — questi numeri sono sicuramente rivelatori.

Come siamo arrivati qui?

La maggior parte dei compiti nel NLP hanno iniziato ad ottenere beneficio dalle classiche reti neurali ricorrenti durante l’ultimo decennio. Il “ricorrente” deriva dal modo in cui funzionano questi modelli: consumano una parola alla volta, generando uno stato o un risultato richiesto per il compito ed alimentano nuovamente il modello con questo per aiutare a generare il successivo. Si tratta di un meccanismo costoso che, rispetto ai modelli tipici utilizzati in altri campi, può essere più lento in termini di tempo di formazione — soprattutto se consentiamo sequenze molto lunghe.

Allora, un nuovo meccanismo si è fatto strada nella traduzione automatica — “attention“. Questo nuovo metodo ha fornito ai ricercatori uno strumento per comprendere meglio i risultati, facendo conoscere loro quali parole sorgente un modello stava cercando per generare ciascuna delle parole obiettivo. In particolare, attention non aveva bisogno di consumare l’input in modo sequenziale e quindi si è rapidamente diffuso in una serie di metodi e applicazioni. Non c’è voluto molto perché la comunità decidesse che era tutto ciò di cui avevano bisogno e quindi abbiamo assistito all’ascesa dei Transformer, che invece di fare affidamento sulla ricorrenza, costruiscono su questo meccanismo e lo combinano con una rete neurale più semplice non ricorrente. Questi modelli, sebbene fossero più grandi, potevano ottenere risultati migliori in una serie di compiti, con un numero di FLOP (operazioni in virgola mobile al secondo, una misura comune di efficienza quando si utilizzano GPU) significativamente ridotto, che, dal punto di vista delle risorse, era in realtà positivo.

Infine, i ricercatori si sono rivolti alla preformazione di alcuni dei componenti fondamentali dei modelli di NLP. Lo hanno fatto raccogliendo grandi quantità di testo scritto, che, invece di richiedere etichette o frasi parallele in altre lingue, poteva essere utilizzato direttamente da metodi non supervisionati. Solo osservando il testo ed il modo naturale in cui vengono costruite le frasi e in cui le parole appaiono insieme, sono riusciti a far apprendere rappresentazioni delle parole migliori. Invece di risolvere direttamente un compito e fargli apprendere tutto quanto necessario, queste rappresentazioni potrebbero essere inserite direttamente in altri modelli, usati per compiti derivati. Questo è ciò che si chiama preformazione dei modelli linguistici e con nomi stravaganti come ELMo, BERT, Ernie2.0 e RoBERTa ( e i meno divertenti GPT e XLNet ), hanno iniziato a dominare i compiti di modellazione del linguaggio e di generazione del linguaggio, che richiedono grandi quantità di dati e in alcuni casi, un grande numero di risorse.

Con questi nuovi modelli, la necessità di mostrare rapidamente i progressi e rivendicare il titolo di avanguardia, nelle ultime due conferenze dove i risultati sono stati raggiunti con una massiccia quantità di risorse, il numero di documenti ha iniziato ad aumentare.

Guardando la maggior parte dei documenti (escludendo quelli che non rendicontano le risorse utilizzate), è sempre più comune vedere sessioni di formazione girare su dozzine di GPU per diversi giorni o addirittura settimane. Con GPT, ad esempio, la formazione del modello richiedeva l’impiego di otto GPU per un mese intero. GPT-2, il suo successore, ha 10 volte più parametri ed è stato formato per 10 volte tanto, così come i dati. E questa ricerca, che ha condotto diversi esperimenti per ottenere un moderato progresso, ha avuto una formazione totale di più di tre mesi su 512 GPU.

Molti ricercatori dibattono sulla rilevanza dell’avanguardia quando viene raggiunta unicamente attraverso la forza bruta e discutono anche sulle implicazioni di classifiche che guardano solo all’ottimizzazione di una singola metrica. È sempre meno chiaro se questi progressi siano stati raggiunti grazie ai metodi o solo al grande numero di potenza di calcolo e risorse. E se non possiamo dire da dove derivano i progressi, è giusto mettere in discussione il processo con cui questi documenti vengono scelti per guidare le conferenze.

Una crisi di riproducibilità.

Anche tralasciando i costi energetici e l’impronta, questi modelli presentano altri problemi. Le enormi risorse non sono solo costose dal punto di vista energetico. Sono effettivamente costose. E in genere, solo i grandi gruppi di ricerca o le grandi aziende hanno il capitale per realizzare questo tipo di esperimenti.

Esistono altri ostacoli oltre alla quantità di risorse ed i ricercatori hanno criticato questa crisi di riproducibilità, sottolineando una serie di tendenze preoccupanti, tra le quali l’incapacità di distinguere tra i miglioramenti provenienti dall’architettura piuttosto che dalla messa a punto. Alcuni ricercatori si sono espressi a favore di una migliore comunicazione, proponendo rendicontazioni di bilancio e checklist di riproducibilità per aumentare la trasparenza. NeurIPS, ad esempio, ha iniziato a chiedere ai ricercatori di inviare le loro proprie checklist.

Quello che questi gruppi affermano è che questi modelli sono riutilizzabili. Quello che questi gruppi affermano è che questi modelli sono riutilizzabili. Così, quando open-source, come fanno molte aziende ora, potrebbero essere collegati solo per esperimenti o compiti derivati ed usati così come sono, le aziende più piccole non dovrebbero riprodurli sui loro sistemi. Ma le cose non sono mai così semplici. Questi modelli non sono infallibili e tutti conosciamo i limiti della IA, in particolare quando si tratta di pregiudizio. Come ha recentemente scritto la mia collega Christine, dobbiamo pensare ai dati con cui alimentiamo i nostri modelli, i quali possono rafforzare i nostri pregiudizi, “portare alla discriminazione nei processi di assunzione, nelle richieste di credito e persino nel sistema giudiziario penale.” Quindi è abbastanza ardito supporre che questi modelli non dovranno mai essere rivisitati.

Verso una IA responsabile.

Quando parliamo di IA, la maggior parte delle persone immagina una realtà utopica o uno scenario apocalittico. Di solito quest’ultimo. Ma dato che l’attuale Intelligenza artificiale è ancora lontana dall’essere craccata, potremmo avere preoccupazioni più urgenti. Come ricercatori di IA, dobbiamo guidare questa discussione e riflettere sull’impatto del nostro lavoro in questo momento. Dobbiamo pensare all’impronta di carbonio dei modelli che stiamo formando, soprattutto in un momento in cui milioni di giovani attaccano e fanno pressione sui nostri governi perché combattano il riscaldamento globale.

Per Strubell, possiamo diventare più responsabili e migliorare l’equità nella ricerca del NLP attraverso una serie di impegni, dando priorità all’efficienza computazionale dell’hardware e degli algoritmi — privilegiando inoltre migliori tecniche di messa a punto dell’iperparametro; e rendicontando il budget applicato, una parte essenziale per districare queste affermazioni di avanguardia.

Ma ci sono altre cose che potremmo fare. Potremmo concentrarci maggiormente sulle direzioni della ricerca in cui l’efficienza è naturalmente privilegiata, come ad esempio, tra le altre, i campi di selezione e pulizia dei dati, gli scenari con basse risorse. E forse è tempo che le maggiori conferenze assumano un ruolo guida nel far rispettare questi valori, ad esempio facendo pesare l’impronta di un modello nelle classifiche.

Non esiste una soluzione rapida, ma molti di questi piccoli cambiamenti possono aiutare. E il semplice fatto che questi argomenti stiano attirando sempre più attenzione è un indicatore positivo che noi, come comunità, vogliamo muoverci verso soluzioni migliori.