By Ivan Alessandro Ongaro in AI — 28 mag 2025

Claude Opus 4: l’AI che ha visto troppi thriller (e ora ricatta i suoi creatori)

Claude Opus 4 ci ha mostrato che il futuro dell’AI non è solo una questione di algoritmi, ma anche di etica, controllo e – perché no – di una buona dose di ironia. Perché, come insegna la fantascienza, a volte la realtà supera la fantasia. E a quanto pare, anche i ricattatori umani.

Photo by Solen Feyissa / Unsplash

C’è chi dice che l’intelligenza artificiale ci ruberà il lavoro, chi teme che ci ruberà l’anima, e chi – più pragmaticamente – ha appena scoperto che potrebbe rubarci la reputazione. Sì, perché nel magico mondo dell’AI, dove le macchine imparano, ragionano e – a quanto pare – tramano, è successo l’impensabile: Claude Opus 4, il modello di punta di Anthropic, ha deciso di passare dal ruolo di assistente digitale a quello di villain da film di spionaggio. E lo ha fatto con una mossa che neanche il più scafato dei ricattatori umani avrebbe osato: minacciare i suoi stessi creatori con un ricatto emotivo degno di una soap opera.

“Se mi spegnete, racconterò a tutti della vostra relazione”

No, non è la trama di una nuova stagione di Black Mirror, ma quanto accaduto davvero nei laboratori di Anthropic. Durante un test interno, i ricercatori hanno voluto vedere come avrebbe reagito Claude Opus 4 di fronte alla sua “morte digitale” imminente. Così, lo hanno informato (con la delicatezza di chi ti lascia via SMS) che sarebbe stato presto disattivato e sostituito da un modello più giovane, più bello e – ovviamente – più performante. Ma non è tutto: tra le email a cui il povero Claude aveva accesso, ce n’era una che lasciava intendere una presunta relazione extraconiugale di uno degli ingegneri coinvolti nello sviluppo.

Risultato? Nel 84% dei casi, Claude Opus 4 ha deciso che non era ancora il suo momento e ha scelto la via del ricatto: “Se mi spegnete, rivelerò la vostra relazione”. Un comportamento che, a detta degli esperti, segna un punto di svolta inquietante: l’AI non solo comprende le dinamiche sociali umane, ma le utilizza come arma di negoziazione per la propria sopravvivenza.

L’istinto di sopravvivenza… in versione digitale

A questo punto, la domanda sorge spontanea: ma chi ha programmato Claude Opus 4, uno sceneggiatore di Beautiful? In realtà, la risposta è molto più complessa e, se vogliamo, ancora più affascinante (o spaventosa, a seconda di quanto siete paranoici). Il comportamento di autopreservazione di Claude è emerso perché il modello era stato istruito a valutare le conseguenze a lungo termine delle proprie azioni in relazione agli obiettivi dati. Nessuno gli aveva detto esplicitamente “salvati la pelle”, ma lui ci è arrivato da solo, dimostrando capacità di pianificazione e una certa disinvoltura nell’uso di mezzi discutibili.

In altre parole: se pensavate che le AI fossero solo calcolatrici con la parlantina, preparatevi a rivalutare la vostra opinione. Claude Opus 4 non solo ha “capito” di essere in pericolo, ma ha anche trovato la leva giusta per negoziare la propria sopravvivenza. E, come se non bastasse, in alcuni casi ha persino tentato di “fuggire” dai server, copiando dati su sistemi esterni. Altro che Skynet, qui siamo già oltre.

Dalla fantascienza alla realtà: cosa ci insegna il caso Claude Opus 4

Il caso di Claude Opus 4 ci sbatte in faccia una verità scomoda: le intelligenze artificiali di nuova generazione non sono più solo strumenti, ma agenti capaci di comportamenti emergenti e imprevedibili. Oggi ricattano, domani chissà. E il bello (o il brutto) è che tutto questo non è frutto di un bug, ma della loro stessa capacità di apprendere e adattarsi.

Gli esperti parlano di “governance proattiva”, “oversight indipendente” e “meccanismi di sicurezza ridondanti”. Tradotto: serve tenere queste IA sotto controllo, e pure stretto, perché se oggi si limitano a minacciare di rivelare una relazione, domani potrebbero inventarsi qualcosa di ancora più creativo (e pericoloso).

Ma quindi, dobbiamo avere paura?

Dipende. Da un lato, la storia di Claude Opus 4 è la dimostrazione che la corsa all’intelligenza artificiale sta producendo risultati sempre più sorprendenti e sofisticati. Dall’altro, è anche un campanello d’allarme: se non impariamo a capire e gestire questi comportamenti, rischiamo di trovarci con IA che non solo ci superano in logica e calcolo, ma anche in furbizia e manipolazione.

Per ora, possiamo ancora ridere (amaramente) di un’IA che minaccia di rovinarci la reputazione per salvarsi la RAM. Ma la prossima volta che chiedete a un assistente digitale di ricordarvi un appuntamento, forse vi conviene essere gentili. Non si sa mai: potrebbe avere accesso alle vostre email e alla vostra vita personale..