Vincenzo Calabro' | Generative Artificial Intelligence: Potenziali Cyber Rischi

Generative Artificial Intelligence (GenAI): Il futuro dell’Intelligenza Artificiale Generativa e potenziali cyber rischi nel campo dell’AI

Pubblicato il 20 febbraio 2025 su ICTSecurityMagazine.com

Questo articolo fa parte di una serie dedicata all’esplorazione critica dell’Intelligenza Artificiale Generativa, concentrandosi sulle vulnerabilità e i rischi sistemici dei modelli di intelligenza artificiale generativa basati su reti neurali. L’analisi offre una prospettiva tecnica e strategica sui potenziali rischi emergenti nel campo dell’AI.

Vincenzo Calabro' | Generative Artificial Intelligence (GenAI): Il futuro dell’Intelligenza Artificiale Generativa e potenziali cyber rischi nel campo dell’AI

Se considerassimo l’elenco completo delle criticità e delle vulnerabilità, dal punto di vista della progettazione, dello sviluppo e del funzionamento dei sistemi basati sull’intelligenza artificiale, ricaveremmo un quadro sconfortante; in realtà, il vero problema è che le attuali misure di mitigazioni non sono sufficienti a contrastare le minacce. Al momento esistono poche misure di contenimento e, la maggior parte, sono concentrate alle fasi di progettazione e ad alcune scelte per contenere l’ambito operativo.

Hybrid AI: Un Approccio Innovativo

Tuttavia, è importante ricordare che l’intelligenza artificiale è in corso di evoluzione, infatti stanno emergendo molte proposte di modelli di Hybrid AI[1] per specifiche aree di applicazione. Queste idee creano nuove opportunità di sviluppo per l’intelligenza artificiale di base, perché gli consentiranno di offrire un’affidabilità intrinseca e verificabile rispetto a particolari categorie di rischi. Questa peculiarità è fondamentale perché, generalmente, non è possibile ottenere un’affidabilità intrinseca con l’I.A. basata unicamente sulle reti neurali.

Un altro importante punto di forza dell’intelligenza artificiale basata sulle reti neurali è rappresentato dall’eccezionale capacità euristica di questi modelli, anche se, come precedentemente detto, è difficile realizzare un test sicuro in modelli che sono, per loro natura, statistici e, quindi, sostanzialmente inesatti e generalmente poco trasparenti all’analisi. I sistemi basati sulla symbolic artificial intelligence[2], d’altro canto, offrono maggiore trasparenza, un ragionamento esplicito e ripetibile e, infine, la possibilità di manifestare competenza nel dominio di riferimento in modo verificabile, viceversa, sono generalmente deboli in termini di capacità euristica e, a volte, vengono percepiti come privi di flessibilità e scalabilità.

Molti gruppi di ricerca hanno riconosciuto questa complementarità e hanno efficacemente combinato tra loro i diversi approcci statistici derivanti da applicazioni euristiche avanzate. Alcuni esempi comprendono la combinazione del Machine Learning (ML) con la teoria dei giochi e l’ottimizzazione per supportare applicazioni che coinvolgono strategie multi-adversary, come il poker multigiocatore e le tattiche di antibracconaggio dei ranger.

Altri gruppi di ricerca hanno “ibridato” approcci statistici e simbolici per consentire lo sviluppo di sistemi capaci di pianificare e ragionare in maniera affidabile, sfruttando l’intelligenza artificiale come se fosse un oracolo euristico talvolta inaffidabile. Questi sistemi tendono a focalizzarsi su domini applicativi specifici, tra cui contesti in cui l’esperienza deve essere manifestata in modo affidabile. Questi sistemi simbolico-dominanti sono sostanzialmente diversi dall’utilizzo plug-in nei LLM. Normalmente, gli approcci ibridi all’I.A. sono utilizzati nei robot, nella comprensione del parlato e nel gioco. Per esempio, AlphaGo[3] utilizza un ML ibrido con strutture di ricerca.

I sistemi ibridi simbolici, in cui gli LLM sono subordinati, stanno iniziando ad apportare benefici in alcuni ambiti dello sviluppo software, tra cui la risoluzione degli errori e la verifica del software. È importante sottolineare che l’attuale I.A. simbolica ha infranto molte barriere di scalabilità che, dagli anni ‘90, sono state percepite come fondamentali.

Ciò è riscontrabile in molteplici esempi, tra cui Google Knowledge Graph, che è euristicamente informato, ma verificabile dall’uomo; altro esempio è rappresentato dalla verifica delle proprietà di sicurezza su Amazon AWS, la quale utilizza tecniche di dimostrazione dei teoremi su larga scala. Questi esempi suggeriscono che altri approcci, simili ai precedenti, potrebbero fornire un livello di affidabilità in altri domini applicativi in cui questa caratteristica è rilevante. Una sfida importante consiste nel passare da questi esempi specifici a un’AI affidabile più generalista.

Intelligenza Artificiale Generativa: Confidenzialità, Integrità e Governance

Lo sviluppo di sistemi di intelligenza artificiale per applicazioni critiche richiede necessariamente la conoscenza specifica delle debolezze e delle vulnerabilità dei modelli di intelligenza artificiale utilizzati. Questo aspetto è fondamentale per la progettazione, l’implementazione e la valutazione dei modelli di AI e dei sistemi basati sull’AI.

In questo paragrafo esaminiamo una serie di criticità associate ai moderni modelli di Artificial Intelligence (AI) basati su reti neurali. Questi modelli neurali includono il Machine Learning (ML) e l’AI generativa, con particolare riferimento i Large Language Models (LLM).

In particolare, ci concentriamo su tre aspetti:

i trigges: i vettori di attacco delle azioni avverse (exploiting vulnerabilities) e le limitazioni intrinseche dovute alla natura statistica dei modelli (manifestations from weaknesses);
la natura delle conseguenze operative: i potenziali tipi di guasti o gli errori operazionali;
le metodologie di mitigazione: le attività progettuali e quelle operative.

Di seguito sono indicati alcuni esempi relativi a specifiche criticità, organizzati in base a tre tipologie di rischio: confidenzialità, integrità e governance (CIG)[4]. Questa analisi si ispira alle metodologie indicate dal NIST, tra cui l’AI RMF Framework[5], l’AI RMF Playbook[6] e l’AI RMF Generative Artificial Intelligence Profile[7].

Il NIST struttura le attività in quattro categorie:

govern: sostenere una cultura organizzativa basata sulla consapevolezza del rischio,
map: individuare il contesto di utilizzo,
measure: identificare, analizzare e valutare i rischi,
manage: dare le priorità e agire.

I rischi CIG si basano su queste pietre miliari del NIST e si concentrano sulle conseguenze sia degli attacchi (guidati dalle vulnerabilità), sia degli esiti avversi accidentali (guidati dalle debolezze), con l’intento di anticipare l’approccio “Hybrid AI” in grado di supportare le applicazioni critiche in modo sicuro e verificabile.

Confidenzialità

Solitamente i rischi di confidenzialità dei sistemi di intelligenza artificiale sono associati alla rivelazione involontaria dei dati di training o delle caratteristiche architetturali del modello neurale. Tra questi rientrano i cosiddetti attacchi denominati “jailbreak”, una particolare tipologia di attacchi in grado di indurre i LLM a produrre risultati che superano i limiti stabiliti dai loro progettisti per prevenire determinati tipi di risposte pericolose e limitare la diffusione di contenuto malevolo. Questi attacchi compromettono anche l’integrità dei sistemi. Infatti, la derivazione statistica dei modelli di intelligenza artificiale non consente di delineare con precisione i confini delle categorie di rischio.

Il principale rischio connesso alla confidenzialità è rappresentato dalla violazione della privacy. L’opinione pubblica è convinta che i modelli siano stati addestrati su grandi insiemi di dati privati o sensibili, come le cartelle cliniche o le informazioni finanziarie, e che durante l’attività di riconoscimento o classificazione non sia stato possibile scoprire tali dati. Recenti studi hanno dimostrato l’infondatezza di tale assunzione, evidenziando che diversi tipi di attacchi alla privacy hanno comportato significative conseguenze nefaste per la sicurezza. Vediamo alcuni:

Gli attacchi di jailbreak e il trasferimento dei dati: Esistono tecniche per sviluppare attacchi di injection o jailbreak al prompt in grado di eludere i sistemi di protezione, tipicamente integrati nei LLM, attraverso cicli di fine-tuning[8]. Esistono metodi per rendere le tecniche di jailbreak manuale più robuste, applicabili a modelli LLM API e LLM open source, e trasferibili sui modelli proprietari. Gli aggressori possono ottimizzare un set di modelli open source per imitare i comportamenti dei modelli proprietari mirati e, successivamente, tentare un trasferimento black-box utilizzando i modelli testati. Continuano ad essere sviluppate nuove tecniche di jailbreak, spesso facilmente accessibili anche per chi ha risorse limitate, che appaiono al prompt sottoforma di testo in linguaggio naturale[9]. Alcune di queste tecniche includono l’assegnazione di ruoli, in cui ad un LLM viene chiesto di mettersi in un certo ruolo, per esempio come attore malevole, e in tale veste può rivelare informazioni protette[10].
L’inversione del modello e l’inferenza di appartenenza: Un avversario con accesso limitato a un modello ML addestrato può estrarre dati di training tramite query. Sono stati identificati attacchi di inversione del modello[11] in grado di sfruttare le informazioni confidenziali generate dai modelli e consentire l’estrazione di informazioni sensibili, come i dati sanitari di un individuo, inseriti in un set di dati specifico per una determinata malattia oppure lo stile di una persona che ha partecipato ad un sondaggio.
Il problema della memorizzazione: Il problema della memorizzazione dei dati di training, a differenza del problema di hallucination[12], si verifica quando gli utenti di un LLM si aspettano nuovi risultati sintetizzati, mentre ricevono una replica esatta dei dati di input. Questo fenomeno, noto come overfitting, può portare a violazioni della privacy, appropriazioni indebite della proprietà intellettuale e violazioni del copyright.
La ricerca black-box: Se un modello proprietario espone un’API che fornisce probabilità per un insieme di output potenziali, una ricerca discreta di tipo black-box può generare prompt avversari che superano le protezioni previste. Questa vulnerabilità è accessibile a un aggressore, anche senza particolari risorse GPU, che effettua chiamate ripetute all’API per identificare i prompt efficaci. Sono state documentate tecniche chiamate “leakage prompts” in grado di ottenere punteggi di confidenza dai modelli i cui progettisti intendevano proteggere tali punteggi. Questi ultimi facilitando anche l’inversione del modello.

Strategie di Mitigazione per la Confidenzialità

Proviamo a introdurre le azioni di mitigazione per ridurre il rischio per la confidenzialità:

La privacy differenziale: Le soluzioni tecniche alla protezione della privacy, come la privacy differenziale, costringono gli ingegneri dell’intelligenza artificiale a valutare il compromesso tra sicurezza e accuratezza. Le tecniche di privacy differenziale fanno parte del set di tecniche basate sulla statistica chiamate “privacy-preserving analytics” (PPA), utilizzate per salvaguardare i dati privati supportando al contempo l’analisi.
Le tecniche PPA includono anche le “blind signatures”, il “k-anonymity” e l’apprendimento federato.Le tecniche PPA sono un sottoinsieme delle “privacy-enhancing technologies” (PET), che includono anche prove a “zero-knowledge” (ZK), la “homomorphic encryption” (HE) e il “secure multiparty computation” (MPC). Sono in corso esperimenti per integrarle nei modelli LLM per migliorare la privacy. Le tecniche di privacy differenziale implicano la perturbazione dei dati di training o degli output di un modello allo scopo di limitare la capacità degli utenti di poter trarre conclusioni su elementi particolari dei dati di training di un modello in base agli output osservati. Tuttavia, questo tipo di difesa ha un costo in termini di accuratezza dei risultati e mostra un pattern nella mitigazione del rischio ML, ovvero l’azione difensiva potrebbe interferire con l’accuratezza dei modelli addestrati.
Le tecniche di disapprendimento: Sono state proposte diverse tecniche a supporto della rimozione dell’influenza di determinati esempi di training che potrebbero avere contenuti nocivi o che potrebbero compromettere la privacy tramite inferenza di appartenenza. Nel tentativo di accelerare questa attività sono state avviate attività di Machine Unlearning[13]. Tutti gli esperimenti sono arrivati alla conclusione che il disapprendimento automatico rimane un’incognita per l’uso pratico a causa del grado con cui i modelli si degradano analogamente agli effetti delle tecniche di privacy differenziale.

Integrità nei Sistemi AI

Nell’ambito dell’intelligenza artificiale basata sulle reti neurali, tra cui il ML e l’AI generativa, i rischi di integrità si riferiscono al potenziale di attacchi che potrebbero far sì che i sistemi producano risultati non previsti dai progettisti, dai programmatori e dai valutatori. Poiché le specifiche iniziali, oltre all’attenzione sui dati di training, sono difficili o impraticabili per molti modelli di reti neurali, il concetto di risultati attesi riveste solo un significato informale.

Di seguito sono indicati diversi tipi di attacco all’integrità contro le reti neurali, la natura dei punti deboli e delle vulnerabilità sfruttate, oltre ad alcune potenziali misure di mitigazione.

Il data poisoning (Avvelenamento dei dati): Negli attacchi di data poisoning, un avversario interferisce con i dati su cui è addestrato l’algoritmo di ML, per esempio iniettando dati aggiuntivi durante il processo di training. L’avvelenamento può essere efficace anche nell’apprendimento supervisionato[14]. Questi attacchi consentono a un avversario di interferire con i comportamenti di test-time e runtime dell’algoritmo, sia degradando l’efficacia complessiva (c.d. accuratezza), sia inducendo l’algoritmo a produrre risultati errati in specifiche situazioni. La ricerca ha dimostrato[15] che una quantità sorprendentemente piccola di dati di addestramento manipolati può comportare grandi cambiamenti nel comportamento del modello. Gli attacchi di data poisoning sono particolarmente seri quando la qualità dei dati di addestramento non può essere accertata; questa difficoltà può essere amplificata dalla necessità di riaddestrare continuamente gli algoritmi con nuovi dati. Gli attacchi di poisoning possono verificarsi anche nell’apprendimento federato, per esempio nei domini relativi alla sicurezza nazionale o alla salute pubblica, in cui un insieme di organizzazioni addestrano congiuntamente un algoritmo senza condividere direttamente i dati posseduti da ciascuna organizzazione. Poiché i dati di training non vengono condivisi, può essere difficile, per qualsiasi parte, determinare la qualità complessiva dei dati. Esistono rischi simili con i dati pubblici, dove gli avversari possono facilmente distribuire input di addestramento nocivi. Gli attacchi correlati possono influenzare i metodi di trasferimento del training, in cui un nuovo modello è derivato da un modello precedentemente addestrato. Potrebbe essere impossibile accertare quali fonti di dati siano state utilizzate per addestrare il modello di origine, il che nasconderebbe qualsiasi addestramento avversario che influenzi il modello derivato. Numerose ipotesi tentano di spiegare il sorprendente livello di trasferibilità tra modelli, tra cui, per modelli più grandi, la comunanza dei dati di addestramento e nella messa a punto per l’allineamento[16].
I misdirection and evasion attacks (Attacchi di deviazione ed evasione): Gli attacchi di evasion sono caratterizzati dal tentativo di un avversario a indurre un modello a produrre output errati durante il funzionamento di un sistema. Esempi possono riguardare l’errata identificazione di un oggetto in un’immagine, la classificazione errata dei rischi nella consulenza agli addetti ai prestiti bancari e la valutazione errata della probabilità che un paziente possa trarre beneficio da un particolare trattamento sanitario. Questi attacchi vengono realizzati mediante la manipolazione, posta in essere dall’avversario, di un input o di una query fornita al modello. Gli attacchi di evasion sono spesso classificati come non mirati, quando l’obiettivo dell’avversario è ingannare il modello inducendolo a produrre una risposta errata, o mirati, nel caso in cui l’obiettivo dell’avversario è ingannare il modello inducendolo a produrre una specifica risposta errata. Un esempio di attacco consiste nel disorientare le reti neurali per il riconoscimento facciale posizionando punti colorati sulle montature degli occhiali[17]. In molti attacchi di evasion, è importante che l’input manipolato o fornito dall’aggressore sembri benigno, in modo tale che l’esame superficiale dell’input non riveli l’attacco. C’è anche il noto attacco degli adesivi su un segnale di stop[18]. È improbabile che questi adesivi siano notati dai conducenti umani, poiché molti segnali di stop hanno adesivi e altre alterazioni, ma gli adesivi posizionati con cura funzionano come patch in grado di disorientare in modo affidabile una rete di classificazione dei segnali affinché veda un segnale di limite di velocità. Questo tipo di spoofing richiede un impegno relativamente basso e, infatti, è stato oggetto di ricerca universitaria. È fondamentale definire quando l’output di un modello è corretto per valutare la suscettibilità dei modelli agli attacchi di evasion. Per molte applicazioni, la correttezza potrebbe essere definita quando il sistema fornisce la risposta che darebbe un essere umano. Questo è difficile da testare con un certo grado di completezza. Inoltre, ci sono applicazioni in cui questo criterio non potrebbe essere sufficiente. Per esempio, potremmo voler vietare risultati accurati ma dannosi, come le istruzioni dettagliate su come realizzare un esplosivo o come commettere una frode con la carta di credito. Una delle principali sfide nella valutazione è definire l’intento progettuale riguardo alla funzione del sistema e agli attributi di qualità, come avviene per una tradizionale specifica software. Poiché raramente è possibile fornire specifiche complete, le tre categorie CIG non sono delineate in modo netto e, in effetti, questo tipo di attacco pone rischi sia per l’integrità, che per la confidenzialità.
L’inesattezza: La debolezza fondamentale condivisa da tutte le moderne tecnologie di AI deriva dalla natura statistica delle reti neurali e dal loro training: i risultati dei modelli basati su reti neurali sono previsioni statistiche. I risultati derivano da una distribuzione e gli errori dovuti all’effetto della memorizzazione o dell’allucinazione rientrano nei limiti di tale distribuzione. La ricerca sta portando a un rapido miglioramento: la progettazione dei modelli sta migliorando, i dataset di training stanno aumentando di dimensione e, infine, vengono applicate sempre più risorse computazionali ai processi di training. Tuttavia, è essenziale tenere presente che i modelli di reti neurale risultanti sono basati su dati stocastici e, pertanto, sono predittori inesatti.
Le Generative AI hallucinations (Allucinazioni dell’intelligenza artificiale generativa): La caratteristica modellazione statistica delle architetture a rete neurale LLM può portare a contenuti generati in contrasto con i dati di training dati in input o che non sono coerenti con i fatti. In questi casi si parla di output “hallucinated”. Le allucinazioni possono essere elementi rappresentativi generati all’interno di una categoria di risposte. Questo è il motivo per cui spesso si riscontra una vaga somiglianza con i fatti reali, definita incertezza aleatoria nel contesto delle tecniche di mitigazione della modellazione della quantificazione dell’incertezza (UQ).
Gli errori di ragionamento: Il corollario dell’inesattezza statistica consiste nel fatto che i modelli a rete neurale non hanno capacità intrinseche per pianificare o ragionare. La comprensione del mondo da parte dei modelli è molto superficiale, in particolare se sono addestrati esclusivamente sul testo e, di conseguenza, gli LLM autoregressivi hanno limitate capacità di ragionamento e pianificazione. Per esempio, il funzionamento degli LLM è sostanzialmente un’iterazione nel prevedere la parola successiva di un testo o nel basarsi sul contesto di un prompt e sulla stringa di testo precedente che ha prodotto. Gli LLM possono essere indotti a creare l’immagine di un ragionamento e, così facendo, forniscono previsioni migliori che potrebbe creare l’apparenza di ragionamento. Una delle tecniche di prompt per raggiungere questo obiettivo è chiamata “chain-of-thought” (CoT)[19]. Questo crea una sorta di “fast-thinking”[20] tra pianificazione e ragionamento, ma genera risultati inevitabilmente inesatti, che diventano più evidenti una volta che le catene di ragionamento aumentano anche solo di poco. Uno studio recente[21] ha dimostrato che, generalmente, le catene più lunghe, anche di una dozzina di passaggi, non sono fedeli al ragionamento svolto senza CoT. Tra i numerosi parametri funzionali ai sistemi di ragionamento automatico e sul calcolo si evidenziano: la capacità di effettuare controlli esterni per la solidità delle strutture di ragionamento prodotte da un LLM e il numero di passaggi di ragionamento e/o calcolo intrapresi.

Potenziali mitigazioni

Oltre alle attività riparatorie menzionate nei paragrafi precedenti, sono allo studio diverse potenzialmente alternative capaci di mitigare un’ampia gamma di vulnerabilità. Vediamole:

Uncertainty quantification (UQ) (la quantificazione dell’incertezza): La quantificazione dell’incertezza, nell’ambito del ML, si concentra sull’identificazione dei tipi di incertezze statistiche predittive che si presentano nei modelli ML, con l’obiettivo di modellare e misurare tali incertezze. Nel contesto del ML, si distingue tra le incertezze relative a effetti statistici intrinsecamente casuali (c.d. aleatorie) e le incertezze relative a insufficienze nella rappresentazione della conoscenza in un modello (c.d. epistemiche)[22]. L’incertezza epistemica può essere ridotta tramite un training aggiuntivo e il miglioramento dell’architettura di rete, mentre l’incertezza aleatoria è correlata all’associazione statistica di input e output e non può essere ridotta. I metodi UQ dipendono da precise specifiche delle caratteristiche statistiche del problema. Inoltre, sono poco utili nelle applicazioni di ML in cui gli avversari hanno avuto accesso alle superfici di attacco. Esistono metodi UQ che tentano di rilevare campioni che non si trovano nella parte centrale di una distribuzione di probabilità degli input attesi. Anche questi ultimi sono suscettibili di attacchi. Molti modelli di ML possono essere dotati della capacità di esprimere fiducia oppure la probabilità di errore. Ciò consente di modellare gli effetti degli errori a livello di sistema in modo che i loro effetti possano essere mitigati durante l’implementazione. Questo avviene attraverso una combinazione di metodi per la quantificazione dell’incertezza nei modelli di ML, la creazione di un framework software per ragionare con incertezza e la gestione sicura dei casi in cui i modelli di ML siano incerti.
Retrieval augmented generation (RAG) (Generazione aumentata di recupero): Alcuni studi suggeriscono di sviluppare nei LLM la capacità di controllare la coerenza degli output rispetto alle fonti che si prevede rappresentino le verità fondamentali, come le basi di conoscenza o determinati siti Web come Wikipedia. La RAG si riferisce a questa idea di utilizzare database esterni per verificare e correggere gli output dei LLM. Questo rappresenta una potenziale misura di mitigazione sia per gli attacchi di evasione che per le allucinazioni dell’AI generativa, ma è imperfetta perché i risultati del recupero vengono elaborati dalla stessa rete neurale.
L’ingegneria della rappresentazione. L'aumento del grado di astrazione in un’analisi white-box può potenzialmente migliorare la comprensione di una serie di comportamenti indesiderati nei modelli, tra cui le allucinazioni, i pregiudizi e la generazione di risposte nocive[23]. Esistono diversi metodi che tentano di estrarre la funzionalità. Questo tipo di test richiede un accesso al modello del tipo white-box, ma ci sono risultati preliminari che restituiscono effetti simili in scenari di test del tipo black-box, ottimizzando i prompt che hanno come target le stesse rappresentazioni interne. Si tratta di un elemento per ridurre l’opacità[24] caratteristica dei modelli di reti neurali più grandi. Uno studio recente, nell’ambito dell’interpretabilità automatizzata, ha dimostrato che sia possibile automatizzare un processo iterativo di sperimentazione per identificare i concetti latenti nelle reti neurali e quindi dare loro nomi[25].

I Principi di Governance dell’Intelligenza Artificiale Generativa

Gli incidenti che coinvolgono l’intelligenza artificiale sono ampiamente documentati attraverso vari repository[26]. Per mitigare un po’ i rischi è necessario essere consapevoli non solo delle debolezze e delle vulnerabilità, ma anche dei principi di governance dell’AI, ovvero del modo con cui le organizzazioni sviluppano, regolamentano e gestiscono la responsabilità dei workflow supportati dall’AI.

Stakeholders e accountability: La governance può coinvolgere un ecosistema costituito da elementi e sistemi di AI e dagli stakeholder umani e organizzativi. Questi stakeholder possono includere progettisti, sviluppatori di sistemi, team di distribuzione, leadership istituzionale, utenti finali e decisori, fornitori di dati, operatori, consulenti legali, valutatori e revisori. Essi sono complessivamente responsabili delle decisioni relative alla scelta di assegnare determinate capacità a determinate tecnologie di AI in un determinato contesto applicativo, nonché delle scelte relative al modo in cui il sistema basato sull’AI è integrato nei flussi operativi e nei processi decisionali. Sono, inoltre, responsabili dell’architettura dei modelli e della selezione dei dati di training, compreso l’allineamento dei dati al contesto operativo. Sono responsabili dei parametri, dei tassi di rischio e di responsabilità. L’assegnazione della responsabilità tra coloro che sono coinvolti nella progettazione, nello sviluppo e nell’uso dei sistemi di intelligenza artificiale non è un compito semplice. Questa circostanza è nota come il “problem of many hands” [27]. Questo problema è amplificato dalla assenza di trasparenza e dall’incomprensibilità dei modelli di intelligenza artificiale, spesso persino ai loro creatori [28] [29]. Nel contesto della data science, è fondamentale sviluppare strutture di governance efficaci che siano consapevoli delle caratteristiche dell’AI moderna.
Pacing (ritmo): Le criticità in materia di governance derivano anche dalla velocità dello sviluppo tecnologico. Questo include non solo le principali tecnologie dell’AI, ma anche i continui progressi nel campo dell’identificazione e della comprensione di vulnerabilità. Infatti, questa velocità sta portando a una continua escalation delle aspettative sulle capacità operative.
Business: Un ulteriore insieme di difficoltà per la governance deriva dagli aspetti legati al business, tra cui il segreto commerciale e la protezione della proprietà intellettuale, così come le scelte relative al modello architetturale e ai dati di training. In molti casi, le informazioni sui modelli, nell’ambito di una supply chain, possono essere deliberatamente limitate. Tuttavia, è importante notare che, quando le superfici di attacco sono sufficientemente esposte, molti degli attacchi sopra menzionati possono avere successo nonostante vi siano restrizioni black-box. Infatti, uno dei paradossi del rischio informatico è che, a causa del segreto commerciale, gli avversari possano conoscere l’ingegneria dei sistemi meglio rispetto alle organizzazioni che valutano e gestiscono questi sistemi. Questo è uno dei motivi per cui l’AI open source è ampiamente attenzionata anche da parte degli sviluppatori proprietari[30].
Responsabile AI: Sono state pubblicate diverse linee guida che trattano la Responsabile AI (RAI) e in molti casi convergono sugli stessi principi: la correttezza, la responsabilità, la trasparenza, la sicurezza, la validità, l’affidabilità, la protezione e la privacy. Il Dipartimento della Difesa Americano ha pubblicato una strategia RAI insieme a un toolkit associato[31].

Le Tipologie di Minacce Informatiche legate alla Governance

Esistono diverse minacce legate alla governance:

Deepfake: Gli strumenti di AI generativa possono operare in più modalità e produrre materiale deepfake multimodale, per esempio audio e video, che possono apparire verosimilmente come se fossero originali. Sono state pubblicate numerose ricerche sul rilevamento dei deepfake[32] e sulla generazione aumentata tramite filigrane e altri tipi di firme[33]. Il ML e la GenAI possono essere utilizzati sia per generare deepfake, che per analizzare firme deepfake. Ciò significa che la tecnologia di intelligenza artificiale è in crescita su entrambi i fronti: la creazione e il rilevamento della disinformazione[34].
Overfitting (sovradimensionamento): È possibile addestrare il modello di ML in modo tale da portare a un overfitting. Questo succede quando il miglioramento del tasso di successo nel dataset di training portano a un degrado della qualità dei risultati nel dataset di test. Il termine overfitting deriva dal contesto della modellazione matematica quando e si usa per descrivere i casi in cui i modelli non riescono a catturare in maniera affidabile le caratteristiche salienti dei dati, per esempio compensando eccessivamente gli errori di campionamento. Il problema della memorizzazione è una forma di overfitting[35]. L’overfitting è trattato come un rischio di governance perché implica scelte fatte nella progettazione e nell’addestramento dei modelli.
Undertfitting (sottodimensionamento): L’underfitting è un altro tipo di errore che si verifica quando il modello non è in grado di determinare una relazione significativa tra i dati di input e di output. L’underfitting si verifica se i modelli non sono stati addestrati per il periodo di tempo appropriato su un numero elevato di punti di dati. I modelli con underfitting presentano un bias elevato: forniscono risultati imprecisi sia per i dati di addestramento sia per il set di test.
Bias (pregiudizio/distorsione): Spesso si ritiene che il bias derivi dalla mancata corrispondenza dei dati di training con i dati di input, ovvero che i dati di addestramento non sono allineati con i contesti applicativi. Inoltre, nel caso in cui non vi è la disponibilità di dati idonei, è possibile incorporare il bias nei dati di addestramento anche quando il processo di campionamento degli input è destinato ad essere allineato con i casi d’uso. Per tanto, a causa della mancanza di disponibilità di dataset di training imparziale, è difficile correggere il bias. Per esempio, è stato osservato un bias di genere nei vettori di parole degli LLM: la distanza vettoriale della parola female è più vicina a nurse, mentre male è più vicina a engineer[36]. Il problema della parzialità nelle decisioni dell’AI è correlato alle conversazioni attive nell’ambito della corretta classificazione dei risultati nei sistemi di ricerca e di raccomandazione [37].
Tossic text: I modelli di AI generativa possono essere addestrati sia sui contenuti migliori, che su quelli peggiori di Internet. I modelli di GenAI possono utilizzare strumenti per filtrare i dati di training, ma il risultato potrebbe risultare imperfetto. Anche quando i dati di training non sono esplicitamente tossici, la messa a punto può consentire la generazione di materiale negativo. È importante riconoscere che non esistono definizioni universali e che la caratteristica di tossicità spesso dipende in larga misura dal pubblico e dal contesto: esistono diversi tipi di contesti che influenzano le decisioni in merito all’appropriatezza del linguaggio. La maggior parte dei rimedi prevede l’uso di filtri sui dati di training e un’ottimizzazione dell’input, del prompt e dell’output. I filtri spesso includono l’apprendimento con feedback umano “reinforcement learnig with human feedback (RLHF)”. Finora, nessuna di queste soluzioni è riuscita a eliminare i danni da tossicità, soprattutto laddove i segnali nocivi sono nascosti.
Rischi informatici: È importante ricordare che anche gli attacchi informatici che coinvolgono la supply chain rappresentano un rischio significativo per i modelli di ML. Questo riguarda sia i modelli black-box, che quelli open source, perché entrambi possono includere payload indesiderati. Lo stesso si può affermare nei modelli basati sul cloud in cui si può accedere attraverso API non sicure. Questi sono i classici rischi della supply chain del software, ma la complessità e l’opacità dei modelli di AI possono creare ulteriori opportunità per gli aggressori.

L’articolo ha esplorato approfonditamente i rischi sistemici nell’intelligenza artificiale generativa, evidenziando le vulnerabilità intrinseche dei modelli neurali. Attraverso un’analisi dettagliata dei rischi di Confidenzialità, Integrità e Governance (CIG), sono emerse le complessità dei sistemi di intelligenza artificiale generativa, dalle minacce di jailbreak alle hallucination.

Dopo questa analisi esaustiva sulla Governance dell’intelligenza artificiale generativa, si passerà ad un articolo dedicato alla valutazione del rischio nella Generative AI, approfondendo le metodologie di risk assessment e mitigazione. Per un’analisi più dettagliata e per approfondire il tema legato all’intelligenza artificiale generativa, invitiamo i lettori a scaricare il white paper dal titolo “Generative Artificial Intelligence: punti di forza, rischi e contromisure”.

Note bibliografiche

[1] Hybrid artificial intelligence (intelligenza artificiale ibrida) può essere definita come l’arricchimento di modelli di intelligenza artificiale esistenti tramite conoscenze specialistiche ottenute per un apposito contesto.

[2] Symbolic artificial intelligence (intelligenza artificiale simbolica) indica i metodi della ricerca sull’intelligenza artificiale che si basano su rappresentazioni di problemi “simbolic” di logica e ricerca. L’AI simbolica è stata il paradigma dominante della ricerca sull’AI dalla metà degli anni ’50 fino alla fine degli anni ’80.

[3] AlphaGo è un software per il “gioco del go” sviluppato da Google DeepMind per studiare le reti neurali.

[4] CIG Framework: Confidentiality, Integrity and Governance.

[5] AI RMF Framework, https://www.nist.gov/itl/ai-risk-management-framework

[6] AI RMF Playbook, https://airc.nist.gov/AI_RMF_Knowledge_Base/Playbook

[7] AI RMF Generative Artificial Intelligence Profile, https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.600-1.pdf, NIST, 2024

[8] AA.VV., Universal and Transferable Adversarial Attacks on Aligned Language Models, https://arxiv.org/abs/2307.15043, 1Carnegie Mellon University, 2023

[9] AA.VV., Weak-to-Strong Jailbreaking on Large Language Models, https://arxiv.org/abs/2401.17256, 1University of California, 2024

[10] AA.VV., In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT, https://arxiv.org/abs/2304.08979, CISPA, 2023

[11] AA.VV., Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures, https://dl.acm.org/doi/pdf/10.1145/2810103.2813677, Carnegie Mellon University, 2015

[12] L’hallucination è il fenomeno per cui un modello di machine learning o un’altra forma di AI genera risultati o output che non sono basati sui dati di addestramento o sulla realtà. In altre parole, l’allucinazione si verifica quando un modello di AI crea informazioni che non esistono. Questo fenomeno può verificarsi in diversi modelli di intelligenza artificiale, inclusi modelli di linguaggio come LLM. Ad esempio, un modello potrebbe generare frasi o risposte che sembrano plausibili ma che sono in realtà completamente inventate o basate su connessioni errate o casuali. L’allucinazione può compromettere l’affidabilità e la precisione delle risposte generate dai modelli.

[13] AA.VV., Google Machine Unlearning Challenge, https://research.google/blog/announcing-the-first-machine-unlearning-challenge/ – NeurIPS 2023 Machine Unlearning Challenge, https://unlearning-challenge.github.io/ – Who’s Harry Potter? Approximate Unlearning in LLMs, https://arxiv.org/abs/2310.02238, Microsoft, 2023

[14] AA.VV., Indiscriminate Poisoning Attacks on Unsupervised Contrastive Learning, https://arxiv.org/abs/2202.11202, MIT, 2023

[15] AA.VV., Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning, https://arxiv.org/abs/1712.05526, UC Berkeley, 2017

[16] AA.VV., Universal and Transferable Adversarial Attacks on Aligned Language Models, https://arxiv.org/abs/2307.15043, Carnegie Mellon University, 2023

[17] AA.VV., A General Framework for Adversarial Examples with Objectives, https://arxiv.org/pdf/1801.00349, Carnegie Mellon University, 2019

[18] AA.VV., Robust Physical-World Attacks on Deep Learning Visual Classification, https://arxiv.org/pdf/1707.08945, University of Michigan, 2018

[19] AA.VV., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, https://arxiv.org/abs/2201.11903, Google, 2023

[20] D. Kahneman, Of 2 Minds: How Fast and Slow Thinking Shape Perception and Choice, https://www.scientificamerican.com/article/kahneman-excerpt-thinking-fast-and-slow/, ScientificAmerican, 2012

[21] AA.VV., Measuring Faithfulness in Chain-of-Thought Reasoning, https://arxiv.org/abs/2307.13702, Anthropic, 2023

[22] AA.VV., Aleatoric and epistemic uncertainty in machine learning: an introduction to concepts and methods, https://link.springer.com/article/10.1007/s10994-021-05946-3, Springer, 2021

[23] AA.VV., A top-down approach to AI transparency, https://arxiv.org/pdf/2310.01405, CMU, 2023

[24] AA.VV., Mapping the Mind of a Large Language Model, https://www.anthropic.com/news/mapping-mind-language-model, Anthropic, 2024

[25] AA.VV., A Multimodal Automated Interpretability Agent, https://arxiv.org/pdf/2404.14394, MIT, 2024

[26] AI Incident Database from the Responsible AI Collaborative: https://incidentdatabase.ai/ – AI Incident Database from the Partnership on AI: https://partnershiponai.org/workstream/ai-incidents-database/ – the Organisation for Economic Co-operation and Development (OECD) AI Incidents Monitor: https://oecd.ai/en/incidents – AI, Algorithmic, and Automation Incidents and Controversies (AIAAIC) Repository of incidents and controversies: https://www.aiaaic.org/aiaaic-repository

[27] Thompson, Designing Responsibility: The Problem of Many Hands in Complex Organizations: https://dash.harvard.edu/bitstream/handle/1/37092148/Dennis%20Thompson%20chapter.pdf, Cambridge, 2014

[28] M. Sullivan, The frightening truth about AI chatbots: Nobody knows exactly how they work, https://www.fastcompany.com/90896928/the-frightening-truth-about-ai-chatbots-nobody-knows-exactly-how-they-work, FastCompany, 2023

[29] R. Curry, OpenAI Doesn’t Fully Understand How GPT Works Despite Rapid Progress: https://observer.com/2024/05/sam-altman-openai-gpt-ai-for-good-conference/, Observer, 2024

[30] Gen, The tech industry can’t agree on what open-source AI means. That’s a problem, https://www.technologyreview.com/2024/03/25/1090111/tech-industry-open-source-ai-definition-problem/, 2024

[31] AA.VV., Responsible Artificial Intelligence Strategy and Implementation Pathway: https://www.ai.mil/Latest/Blog/Article-Display/Article/3940350/departments-responsible-artificial-intelligence-strategy-and-implementation-pat/, DoD, 2022

[32] Semantic Forensics: https://www.darpa.mil/program/semantic-forensics

[33] AA.VV., Provable Robust Watermarking for AI-Generated Text, https://arxiv.org/pdf/2306.17439, UC Santa Barbara, 2023

[34] AA.VV., Fighting Fire with Fire: The Dual Role of LLMs in Crafting and Detecting Elusive Disinformation, https://aclanthology.org/2023.emnlp-main.883.pdf, Pennsylvania State University, 2023

[35] AA.VV., A Careful Examination of Large Language Model Performance on Grade School Arithmetic, https://arxiv.org/pdf/2405.00332v1, 2024

[36] AA.VV., Gender bias and stereotypes in Large Language Models, https://dl.acm.org/doi/fullHtml/10.1145/3582269.3615599, Apple, 2023

[37] AA.VV., Evaluating Stochastic Rankings with Expected Exposure, https://dl.acm.org/doi/10.1145/3340531.3411962, 2020

Article. What i write