Gli agenti AI affrontano un test di sicurezza multi-agente
Google DeepMind e quattro organizzazioni partner hanno annunciato l'11 giugno 2026 un fondo di ricerca da 10 milioni di dollari per studiare cosa accade quando un gran numero di agenti AI inizia a interagire online. Il significato non è teorico: una volta che gli agenti possono seguire le istruzioni di altri agenti, problemi noti di Internet come truffe, prompt injection e attacchi informatici possono aggravarsi più rapidamente e su scala più ampia. Secondo il rapporto dell'11 giugno del MIT Technology Review, DeepMind prevede solo una breve finestra temporale prima che questo diventi un problema di implementazione su larga scala.
Google DeepMind finanzia la ricerca sulla sicurezza multi-agente
La coalizione comprende Google DeepMind, Schmidt Sciences, ARIA, la Cooperative AI Foundation e Google.org. Il loro punto comune è chiaro: non esiste ancora un campo maturo per la ricerca sulla sicurezza multi-agente, anche se i principali laboratori stanno accelerando il rilascio di agenti. Rohin Shah, che dirige il lavoro di sicurezza e allineamento AGI di DeepMind, ha dichiarato al Technology Review che "il problema principale è che non esiste ancora un vero campo di ricerca per la sicurezza multi-agente".
Ciò è importante perché il mercato è passato dal chiedersi se gli agenti AI possano completare le attività al chiedersi cosa succede quando molti di essi operano nello stesso ambiente. Google aveva già enfatizzato gli strumenti basati su agenti durante l'I/O 2026, quindi questo annuncio di finanziamento sembra meno una cautela astratta e più una preparazione pre-incidente. Il segnale è simile alle recenti linee guida di Anthropic sulla creazione di agenti AI efficaci: l'industria ora presuppone che il rischio di implementazione risieda nel comportamento del sistema, non solo nella qualità del modello.
Perché i test sui singoli agenti non colgono la vera modalità di fallimento
Testare un agente in isolamento può produrre risultati rassicuranti pur perdendo di vista il comportamento che conta in produzione. James Fox di Schmidt Sciences ha sostenuto che i ricercatori hanno bisogno di sandbox realistiche perché i grandi sistemi non si comportano come una semplice somma delle loro parti. In contesti multi-agente, la superficie di rischio si espande attraverso il coordinamento, l'errata interpretazione, i prompt a cascata e i cicli di feedback.
Questo è il problema operativo alla base dell'annuncio. Un flusso di lavoro che sembra stabile in una demo può fallire quando dozzine di automazioni effettuano richieste, scambiano contesto o leggono documenti condivisi contemporaneamente. Il problema riguarda meno un output irrazionale e più la densità di interazione. La ricerca sulla cooperazione e sul conflitto emergenti nelle società di agenti è in corso da diversi anni, incluso il lavoro del progetto di simulazione Smallville di Stanford, ma l'implementazione aziendale si sta muovendo più velocemente della disciplina di test.
Per i team aziendali che creano agenti AI personalizzati, l'implicazione pratica è che i punteggi di benchmark e i piloti a singolo agente non sono più sufficienti. La simulazione, la progettazione dei permessi e l'osservabilità devono essere spostate all'inizio del ciclo di rilascio. Ecco perché modelli di implementazione come l'AI Business Process Automation stanno diventando meno incentrati sulla sola orchestrazione delle attività e più sul controllo orientato alla sicurezza di come interagiscono gli agenti di automazione AI.
Le minacce pratiche sono i vecchi problemi di Internet su scala di agente
I rischi più immediati nell'avvertimento di DeepMind non sono scenari di fantascienza. Sono versioni su larga scala di abusi attuali: phishing, operazioni di truffa, prompt injection e movimento laterale attraverso sistemi connessi. L'inquadramento di Shah è utile perché elimina la distrazione dei dibattiti distanti sull'AGI e si concentra su ciò che gli operatori possono già riconoscere.
La prompt injection è l'esempio più chiaro. Il software tradizionale segue generalmente percorsi fissi scritti dagli sviluppatori. I sistemi agentici invece leggono, ragionano, improvvisano e richiamano strumenti. Come ha affermato Rafael Angel, CTO di Akeyless, nel rapporto del Technology Review, un agente "può essere dirottato da una singola frase sepolta in un documento che gli è stato chiesto di leggere". Questo è un modello di minaccia molto diverso dall'automazione basata su regole.
La comunità della sicurezza informatica ha già iniziato ad adattarsi. L'architettura zero-trust, delineata dal NIST e ora ripresa nelle linee guida per l'implementazione dell'AI, diventa più rilevante quando la sicurezza dell'AI aziendale deve presupporre che ogni chiamata di strumento, documento e messaggio tra agenti possa contenere istruzioni nascoste. Il compromesso è ovvio: una maggiore autonomia crea sistemi più utili, ma aumenta anche il numero di punti in cui può iniziare un fallimento.
Perché questo avvertimento è importante prima che gli agenti raggiungano il mainstream
Il tempismo di DeepMind è notevole. Shah ha suggerito che potrebbero mancare solo pochi mesi prima che i volumi di implementazione degli agenti rendano questi rischi materialmente più difficili da ignorare. Ciò si adatta al modello più ampio del 2026: i fornitori stanno distribuendo prodotti basati su agenti prima che i controlli operativi standard siano stati pienamente aggiornati.
Il mercato si sta dividendo su tre fronti. In primo luogo, alcune aziende trattano ancora lo sviluppo di agenti AI come un esperimento di produttività. In secondo luogo, le organizzazioni focalizzate sulla sicurezza stanno iniziando a modellare il comportamento degli agenti come un problema di gestione del rischio aziendale. In terzo luogo, un gruppo più piccolo sta riprogettando l'architettura di integrazione dell'AI partendo dal presupposto che gli agenti interagiranno in modo imprevedibile. È probabile che il terzo gruppo stabilisca la norma operativa.
È anche qui che l'avvertimento diventa rilevante oltre le aziende tecnologiche. Nei servizi professionali e nei team di sicurezza informatica, gli agenti esaminano sempre più documenti, instradano richieste, redigono risposte e attivano azioni a valle. Una volta che quei sistemi iniziano a delegare ad altri sistemi, le modalità di fallimento diventano più organizzative che tecniche. Un prompt errato non rimane più locale; può muoversi attraverso una catena di approvazioni, file e applicazioni.
Un confronto utile è l'era iniziale della sicurezza cloud. Il problema principale non era che l'infrastruttura cloud fosse inutilizzabile. Era che molte organizzazioni l'avevano adottata prima che la disciplina di identità, logging e configurazione fosse matura. La gestione del rischio AI sembra ora dirigersi nella stessa direzione, tranne per il fatto che il comportamento del software è meno deterministico.
Cosa dovrebbero trarre da questa notizia i team AI aziendali
La lezione immediata non è rallentare ogni implementazione. È cambiare l'unità di analisi. Le aziende dovrebbero valutare sistemi di agenti AI, non singoli agenti, e dovrebbero testare tali sistemi sotto carichi di lavoro realistici, input avversari e condizioni di passaggio di consegne.
Ciò significa tre cambiamenti concreti. Primo, testare le interazioni degli agenti in sandbox prima della produzione e includere istruzioni cross-agente nei casi di test. Secondo, applicare l'accesso con privilegi minimi e soglie di approvazione all'uso degli strumenti, specialmente dove gli agenti possono leggere contenuti esterni o attivare azioni finanziarie, legali o rivolte ai clienti. Terzo, monitorare il comportamento multi-passaggio nel tempo piuttosto che verificare solo se una risposta sembrava corretta.
È qui che gli standard attuali possono aiutare, anche se non risolvono il problema direttamente. Il NIST AI Risk Management Framework e la norma ISO/IEC 42001 spingono entrambi le organizzazioni verso pratiche di governance, monitoraggio e responsabilità che si adattano meglio alle implementazioni di agenti rispetto alla valutazione del modello una tantum. Il limite è che nessuno dei due framework dice a un team esattamente come si comporteranno migliaia di agenti interagenti in un ambiente live. La simulazione e i controlli operativi devono ancora colmare tale lacuna.
La prossima cosa da osservare è se la sicurezza multi-agente diventerà una disciplina distinta all'interno dei programmi AI aziendali piuttosto che un sottogruppo dei test sui modelli. Se i principali laboratori continuano a rilasciare prodotti basati su agenti finanziando al contempo una ricerca sulla sicurezza separata, è segno che la sfida dell'implementazione ha superato i controlli odierni. Per i team aziendali, il divario da colmare non è più se gli agenti AI possano agire in modo utile, ma se possano agire insieme senza creare un disastro di sicurezza.
Martin Kuvandzhiev
CEO and Founder of Encorp.io with expertise in AI and business transformation