16 dicembre 2018
Aggiornato 00:30

Intelligenza artificiale come l'uomo? Andiamoci piano

Negli ultimi anni c'è stata una vera e propria esplosione di interesse per l'intelligenza artificiale. Ma non è oro quel che luccica

Intelligenza artificiale come l'uomo? Andiamoci piano
Intelligenza artificiale come l'uomo? Andiamoci piano (Shutterstock.com)

MILANO - Leggendo la stampa tech, ascoltando i titoli di alcuni telegiornali, ormai siamo convinti del fatto che l’intelligenza artificiale mangerà praticamente ogni settore e lavoro. Non passa giorno senza che spunti l’ennesimo articolo su come il machine learning stia più o meno gradualmente depredando l’intelligenza umana. Questo eccesso di entusiasmo non nasce però solo dai giornalisti, ma si limita a canalizzare il feroce ottimismo dei ricercatori e dei fondatori di startup. O, almeno, di alcuni di essi.

Negli ultimi anni c'è stata una vera e propria esplosione di interesse per l'intelligenza artificiale e l'apprendimento automatico. Interesse che è sfociato in migliaia di documenti pubblicati ogni anno e in oltre 400mila startup che - a livello globale - si occupano di intelligenza artificiale. E allora, dopo, tutto questo clamore, non dovrebbe sorprendere che oggi milioni di persone siano seriamente preoccupate per la perdita dei posti di lavoro a causa della tecnologia. L’automazione e l’intelligenza artificiale hanno generato una paura che supera di gran lunga l’immigrazione e l’esternazionalizzazione.

La verità però è molto più complicata. Gli esperti riconoscono sempre più spesso che la "precisione" dell'intelligenza artificiale è sopravvalutata. Inoltre, i numeri di precisione riportati nella stampa popolare sono spesso fuorvianti, e una valutazione più sfumata dei dati dimostrerebbe che molte applicazioni di IA hanno capacità molto più limitate di quanto non siamo stati indotti a credere. Gli esseri umani possono effettivamente finire per perdere il lavoro a causa dell’intelligenza artificiale, ma c'è una strada molto più lunga da percorrere.

Negli ultimi dieci anni circa, negli ambienti di ricerca c'è stata una polemica ebollitiva su quella che è stata definita la «crisi della replicazione» - l'incapacità dei ricercatori di duplicare i risultati di documenti chiave in campi tanto diversi come la psicologia e l'oncologia. La ricerca sull'intelligenza artificiale non è immune a tali fattori strutturali, e di fatto, può anche essere peggiore data l'incredibile ondata di eccitazione intorno all’AI, che ha spinto i ricercatori a trovare i progressi più nuovi e condividerli nel modo più rapido e ampio possibile.

Ora, cresce la preoccupazione che i risultati più importanti della ricerca sull’AI siano difficili se non impossibili da replicare. Una sfida è che molti documenti di AI mancano dei dati chiave necessari per eseguire i loro algoritmi sottostanti, o peggio, non includono nemmeno il codice sorgente per l'algoritmo in studio. I dati di formazione utilizzati nell'apprendimento in macchina rappresentano una parte enorme del successo dei risultati di un algoritmo, quindi senza tali dati è quasi impossibile determinare se un particolare algoritmo funzioni come descritto.

Prendiamo ad esempio gli errori commessi da Google. Già nel 2015, l'ingegnere del software Jacky Alciné sottolineava che gli algoritmi di riconoscimento delle immagini in Google Photos stavano classificando i suoi amici neri come «gorilla». Google si era detto sgomento, si era scusato con Alciné promettendo di risolvere il problema. Tuttavia, come mostra un nuovo report di Wired, benché siano trascorsi tre anni, il colosso di Mountain View non sembra aver risolto il problema. L'azienda ha semplicemente bloccato i suoi algoritmi di riconoscimento dell'immagine per identificare completamente i gorilla - preferendo, presumibilmente, limitare il servizio piuttosto che rischiare un'altra errata classificazione. In parole povere, gorilla e altri primati sono stati cancellati dal lessico del servizio e non possono essere identificati attraverso Google Photo.

Questo è solo un esempio di quanto il margine di errore dell’intelligenza artificiale possa essere davvero molto ampio. Una ricerca del MIT ha dimostrato che le prestazioni degli AI progettati per imparare per tentativi ed errori sono altamente sensibili non solo al codice esatto utilizzato, ma anche ai numeri casuali generati per dare il via all'allenamento. Questo significa che cambiamenti molto piccoli all’interno del contesto potrebbero portare a risultati molto diversi. In parole povere, se l’intelligenza artificiale raggiunge un risultato su un campione, ad esempio impara a diagnosticare una malattia, non è detto in una circostanza diversa l’algoritmo possa dare lo stesso risultato.

Così come un unico studio sulla scienza nutrizionale dovrebbe essere sempre preso con le pinze, anche i nuovi documenti AI dovrebbero essere trattati con scetticismo. Una singola carta che dimostra un risultato singolare, non dimostra l’accuratezza. Spesso, ciò significa che un dataset di grande scelta che opera in condizioni molto specifiche può portare ad un punto di precisione elevato che non si applica ad un insieme più generale.

Diciamo che vogliamo determinare se un bozzo sulla pelle di una persona è cancerogena. Questo è il cosiddetto problema di classificazione binaria - l'obiettivo è quello di separare i pazienti in due gruppi: persone affette da cancro e persone non affette. Un algoritmo perfetto con precisione perfetta identificherebbe ogni persona con cancro come «avere cancro», e identificherebbe ogni persona senza cancro come «non avere cancro». In altre parole, i risultati non avrebbero falsi positivi o falsi negativi.

E' abbastanza semplice, ma la sfida è che condizioni come il cancro sono essenzialmente impossibili da identificare con precisione perfetta sia per il computer che per l'uomo. Ogni test diagnostico medico di solito deve fare un compromesso tra quanto è sensibile (quanti positivi identifica correttamente) e quanti sono specifici (quanti negativi identifica correttamente). Dato il pericolo di identificare erroneamente un paziente oncologico, i test sono generalmente concepiti per garantire un'elevata sensibilità diminuendo la specificità (cioè aumentando i falsi positivi per garantire che siano identificati altrettanti positivi). I designer di AI hanno qui la possibilità di scegliere come bilanciare queste priorità concorrenti. Lo stesso algoritmo potrebbe essere implementato in modo diverso a seconda del costo di falsi positivi e negativi.

Forse potremo essere più cauti nel parlare di intelligenza artificiale. Che si tratti di lavoro o di risultati clinici, è importante ricordare che molte delle tecniche di AI a cui ci affidiamo, sono semplici bambini tecnologici, e hanno ancora bisogno di tanto tempo per maturare.