28.06.2023 Elio Grande

Indizi di fragilità: adversarial examples

Sebbene non siano dipinti o statue, pur corredate di schermi o arti robotici, le macchine – spiegava Umberto Eco per bocca di Guglielmo da Baskerville ne Il nome della rosa – «sono effetto dell’arte, che è scimmia della natura, e di essa riproducono non le forme ma la stessa operazione». In altre parole, le macchine sono immagini operative. Ma uno specchio che, invaghitosi del volto che ritrae, provasse a correr via portandolo con sé, di lì a poco inciamperebbe incrinandosi o finendo in mille pezzi, corrugando così le belle guance del malcapitato Narciso. Infatti, un’immagine che cerca di far da sola, privandosi del proprio riferimento, scricchiola alle fondamenta. Temendo forse allora di non ritrovar la strada di casa, la furba Intelligenza Artificiale datasi alla fuga dissemina qua e là, come Pollicino, indizi di fragilità che ci invita a raccogliere. Proprio quando sembrava più virile e seducente, performante e robusta, stabile, affidabile, veloce e quant’altro sia sufficiente a giustificare il meccanico entusiasmo e l’intorpidito laissez faire delle intenzioni, eccola presentare sintomi d’incertezza che, sotto la lente d’ingrandimento, si rivelano contagiosi.

Intriguing properties of neural networks è a tal proposito il titolo assai esplicativo di un articolo pubblicato nel 2014 da un gruppo di ricercatori – Ian Goodfellow, Christian Szegedy, Rob Fergus ed altri, allora di provenienza mista tra Google, Facebook e le Università di New York e Montreal – dove si menzionava un punto cieco nell’attività di generalizzazione propria delle reti neurali classificatrici: gli adversarial examples, ovvero leggerissime perturbazioni dei dati, create ad hoc o magari effetto del caso, capaci però di ingenerare elevati e peculiari tassi di errore. Supponendo ad esempio, dopo aver allenato un classificatore a distinguere fotografie di scuolabus e di struzzi, di darvi in input l’immagine di uno scuolabus variata di un parametro epsilon talmente minimo da essere indistinguibile ad occhio nudo, il risultato paradossale è che non solo nella stragrande maggioranza dei casi – talora il 100% – verrà classificato come “struzzo”, ma ciò perfino con un’altissima confidenza. Un difetto che pare tutt’ora indipendente sia dalla struttura della rete (cross-model) che da quella del dataset di apprendimento (cross training-set), come se fosse un fenomeno carsico.


Sono certo casi rari, di solito veri e propri cyberattacchi, e tuttavia un solo cigno nero basta a dubitare della naturale bianchezza della sua specie. Tanto più che qui il rischio è alto: un veicolo a guida autonoma, a causa di un piccolo adesivo, potrebbe scambiare un segnale stradale di “stop” per un obbligo di velocità minima a 100 km\h. Due, dicevano gli Scolastici medievali, sono i tipi di errore: la negazione e la privazione. Una è il doveroso frutto della propria finitezza: perché mai infatti i sensi (alias, il dataset di apprendimento) e le percezioni (la griglia di neuroni) dovrebbero sempre fornire informazioni esatte alla volontà (la funzione di attivazione) che giudica il vero ed il falso? Ma quando l’idropico, scriveva Descartes nell’ultima sua Meditazione, sente intensa la secchezza alla gola mentre è proprio l’acqua a recar danno alla salute – un vero e proprio adversarial attack – l’errore è di natura, una privazione che mina la robustezza del sistema più che l’accuratezza delle previsioni. Un Dio ingannatore lì, qui un esperto informatico; una macchina fragile da una parte, dall’altra una cicatrice su un viso riflesso. È di gran lunga meglio, faceva spallucce Descartes, che ciò accada di rado piuttosto che spesso, come per tutto il resto. Ma non basta, no, perché stavolta gli inventori siamo noi.

 

Credits Copertina: Markus Spiske su Unsplash