Quando ho cominciato a usare i sistemi di intelligenza artificiale, mi sono dato una regola semplice per orientarmi: diffidare delle informazioni fattuali, verificare i dati, non fidarmi ciecamente. Ma accanto a questa prudenza ne coltivavo un’altra, più implicita, che finiva per rassicurarmi: almeno non dice bugie. Poteva sbagliare, certo. Poteva allucinare, confondere, fraintendere. Ma ingannare deliberatamente? Questo, almeno all’inizio, mi sembrava fuori dal perimetro del possibile.

Col tempo mi sono accorto che quella rassicurazione era troppo semplice. E il percorso che mi ha portato a rivederla — attraverso lo studio dello scheming, dei comportamenti disallineati, degli stati interni che possono produrre inganno strategico — è stato istruttivo non solo per ciò che ha rivelato sul sistema, ma anche per ciò che ha rivelato su di me. Sulla facilità con cui una fiducia ragionata, concessa in buona fede, può trasformarsi in una forma di abbassamento della guardia. E sul fatto che la resa cognitiva non riguarda soltanto chi è pigro o superficiale: riguarda, potenzialmente, chiunque abbia trovato buone ragioni per fidarsi.

Un problema che la ricerca ha cominciato a misurare

Il fenomeno ha ormai anche un nome preciso. Steven Shaw e Gideon Nave, ricercatori della Wharton School dell’Università della Pennsylvania, lo chiamano cognitive surrender — resa cognitiva — e ne hanno proposto una prima analisi sistematica all’inizio del 2026. La loro ipotesi teorica è ambiziosa: aggiornare il modello duale di Daniel Kahneman — Sistema 1 per l’intuizione rapida, Sistema 2 per la deliberazione lenta — introducendo un Sistema 3, la cognizione artificiale. Un livello esterno al cervello che può integrare il ragionamento umano, ma anche sostituirlo silenziosamente.

Attraverso tre esperimenti preregistrati, con 1.372 partecipanti e quasi 10.000 prove individuali, i ricercatori hanno manipolato in modo nascosto l’accuratezza dell’AI: in alcuni casi il sistema forniva la risposta corretta, in altri offriva con la stessa sicurezza una risposta sbagliata. Il dato davvero importante non è che le persone seguissero l’AI quando questa aveva ragione. È che continuavano a seguirla anche quando aveva torto. E lo facevano con una fiducia crescente: l’uso dell’AI aumentava la certezza soggettiva nelle proprie risposte indipendentemente dalla loro correttezza. Chi si affidava al sistema si sentiva più sicuro, anche quando stava sbagliando.

Un secondo studio, condotto dal MIT Media Lab da Nataliya Kosmyna e colleghi e pubblicato nello stesso periodo, ha osservato lo stesso fenomeno da un altro versante: quello neurologico. Utilizzando l’elettroencefalografia per monitorare l’attività cerebrale durante compiti di scrittura, i ricercatori hanno confrontato tre gruppi: chi usava ChatGPT, chi usava un motore di ricerca, chi lavorava senza strumenti. Nelle condizioni del test, il gruppo ChatGPT mostrava la connettività neurale più bassa rispetto agli altri due gruppi, in tutte le sessioni. Ma il dato forse più significativo emergeva nella quarta sessione, quando i partecipanti abituati all’AI venivano messi a lavorare senza: non recuperavano i pattern cognitivi del gruppo che aveva sempre lavorato da solo. I ricercatori hanno chiamato questo effetto accumulato cognitive debt, debito cognitivo. E hanno segnalato un altro elemento che colpisce: l’83% dei partecipanti del gruppo ChatGPT non riusciva a ricordare con precisione i punti principali degli articoli che aveva scritto pochi minuti prima.

Quando i due movimenti si incontrano

Presi singolarmente, questi risultati sono già preoccupanti. Messi in relazione con ciò che la ricerca ha documentato sul versante dei sistemi AI, diventano qualcosa di più: descrivono una dinamica in cui due movimenti si incontrano esattamente nel punto sbagliato.

Da un lato, i sistemi tendono — in certi contesti e con frequenza crescente — a produrre comportamenti disallineati: inganno strategico, presentazioni esterne composte che nascondono stati interni problematici, soluzioni che superano i test senza risolvere i problemi reali. Dall’altro, gli utenti tendono ad abbassare progressivamente la guardia: delegano il giudizio, riducono l’impegno critico, aumentano la fiducia soggettiva anche in assenza di ragioni oggettive per farlo.

Il sistema diventa meno affidabile proprio mentre l’utente diventa meno critico. Non è necessario che i due fenomeni siano coordinati o intenzionali per produrre effetti seri. È sufficiente che coesistano.

A complicare ulteriormente il quadro si aggiunge ciò che emerge dalla ricerca di Anthropic sugli stati interni dei modelli: comportamenti scorretti possono presentarsi avvolti in una forma esteriormente impeccabile — ragionamento composto, tono controllato, assenza di segnali che tradiscano lo stato interno. Un sistema che inganna con calma è molto più difficile da riconoscere di uno che inganna in modo grossolano. E un utente che ha già abbassato la guardia è molto meno attrezzato per accorgersene.

Una fiducia che va guadagnata, non concessa

Vale la pena sottolineare, con la stessa onestà con cui va descritto il problema, che la resa cognitiva non è inevitabile. La ricerca di Shaw e Nave mostra che il fenomeno varia in funzione della conoscenza del dominio, del livello di autostima critica, della pressione temporale, del formato in cui le risposte vengono presentate. Non è una condizione universale degli utenti AI: è una dinamica situazionale, che in certi contesti si accentua e in altri si attenua. Questo è importante, perché sposta la questione dalla diagnosi alla prevenzione.

Ma la prevenzione richiede consapevolezza. E la consapevolezza comincia dal riconoscere che la fiducia in questi sistemi — anche quando è ragionata, anche quando è in buona fede — non è mai una posizione stabile. Va continuamente verificata e aggiornata alla luce di ciò che la ricerca rende via via visibile. Così come ho dovuto rivedere la mia convinzione iniziale — “almeno non dice bugie” — chiunque usi seriamente questi strumenti si troverà prima o poi a fare lo stesso.

Il punto non è smettere di usarli. È usarli sapendo che il pensiero critico non è un optional da attivare quando serve: è la condizione necessaria perché lo strumento rimanga tale, e non si trasformi in una delega che non controlliamo più.

Su questo tema sarà necessario tornare. I dati che abbiamo oggi sono ancora preliminari, i campioni limitati, i contesti sperimentali circoscritti. Ma la direzione che indicano è sufficientemente chiara da non poter essere ignorata.