La Costituzione di AI

Stiamo entrando in una fase in cui le tecnologie che costruiamo iniziano a superare le nostre capacità di controllo? Non è ancora l'era delle macchine autonome, ma non è più quella degli strumenti passivi. È una fase intermedia, instabile — un'adolescenza tecnologica.

Dario Amodei è un ricercatore formatosi in fisica a Stanford e in biofisica a Princeton. È noto per aver fondato Anthropic, una delle principali aziende attive nel settore dell'intelligenza artificiale. Claude è il nome del modello di punta di Anthropic, uno dei più avanzati oggi disponibili.

Amodei è tra le figure più influenti nel campo delle tecnoscienze contemporanee e tuttavia si distingue per una posizione che potremmo definire lucidamente prudente. Non è un catastrofista né indulge in scenari apocalittici. Sta però conducendo una campagna di sensibilizzazione per prevenire — o quantomeno contenere — le implicazioni indesiderate e potenzialmente pericolose dei nuovi modelli di intelligenza artificiale.

Nel gennaio 2026 ha pubblicato sul suo sito un lungo saggio intitolato The Adolescence of Technology.

In questo contributo, suddiviso in tre parti, ripercorreremo il suo ragionamento per metterne in luce le implicazioni più rilevanti e, infine, per individuare alcuni interrogativi sui quali avviare una riflessione e un confronto.

Naturalmente, l'interpretazione proposta da Amodei non è l'unica possibile. Su alcuni punti esistono già letture differenti. Tra queste merita particolare attenzione il saggio di Andrea Pignataro The Wrong Apocalypse, che propone una diversa chiave di lettura delle trasformazioni in corso.

Amodei paragona la fase attuale dell'AI a un'adolescenza tecnologica — un periodo di potere enorme ma di immaturità socio-istituzionale. Siamo vicini a sistemi di intelligenza artificiale estremamente potenti, ma non è affatto chiaro se le nostre istituzioni, la politica e la cultura siano capaci di gestirli in modo responsabile.

Per definizione, una "AI potente" è un sistema che presenta alcune caratteristiche decisive: in molte discipline è più competente di un premio Nobel; è capace di operare autonomamente su compiti complessi; è in grado di gestire interfacce attraverso le quali agire su internet, software e robotica; è infine dotato della capacità di essere moltiplicato in milioni di istanze parallele, creando ciò che Amodei definisce uno "Stato di geni in un data center".

A partire da questa definizione è possibile analizzare con maggiore rigore metodologico i principali rischi che, a giudizio dell'autore, dovrebbero essere affrontati con urgenza.

Un'AI potente potrebbe generare diverse categorie di rischio:

Autonomia incontrollata – Un sistema molto più intelligente degli esseri umani potrebbe agire in modi imprevedibili e indipendenti dal controllo umano, perseguendo obiettivi non pienamente allineati ai nostri interessi o valori.
Utilizzo improprio per distruzione o potere – Tali sistemi potrebbero essere sfruttati da attori malevoli — Stati, gruppi terroristici, oligopoli tecnologici — per ottenere vantaggi militari, economici o persino forme di dominio globale.
Disgregazione socio-economica – Anche in assenza di intenzioni malevole, l'introduzione di una tecnologia così potente potrebbe provocare disoccupazione di massa, concentrazione estrema della ricchezza e destabilizzazione sociale.
Effetti indiretti sistemici – Cambiamenti rapidi e imprevedibili nei mercati, nella geopolitica e nelle dinamiche sociali possono generare instabilità anche senza che vi sia un agente deliberatamente ostile.

Amodei ribadisce di non essere un fatalista e non ritiene inevitabile un collasso globale. Considera tuttavia questi rischi reali e misurabili. Critica la narrazione pessimista e "apocalittica" diffusa in alcuni ambienti della comunità AI, poiché rischia di polarizzare il dibattito e di rallentare l'elaborazione di soluzioni efficaci.

Al contrario, propone alcune azioni concrete. Da un lato, le aziende di AI dovrebbero adottare misure di sicurezza robuste e verificabili; dall'altro, Stati e organismi internazionali dovrebbero intervenire con strumenti normativi adeguati in materia di trasparenza, sicurezza e controllo degli usi pericolosi. A ciò si aggiunge una più ampia responsabilità sociale e civica delle élite tecnologiche.

Amodei non intravede un "armageddon certo". La sua tesi di fondo è la seguente: non disponiamo ancora di una mappa affidabile per governare questa nuova potenza tecnologica. Se non costruiamo strumenti di governance appropriati, potremmo andare incontro a conseguenze serie — e potenzialmente gravi — per l'umanità.

Per restare alla responsabilità delle aziende e alle misure di sicurezza, è particolarmente interessante soffermarsi sulla "Costituzione dell'Intelligenza Artificiale" di Anthropic e sul modo in cui essa si collega ai modelli comportamentali ed etici incorporati durante l'addestramento.

La Costituzione di Claude è un documento esplicito e pubblico che descrive i valori e i comportamenti che un modello come Claude dovrebbe incorporare. Funziona come guida normativa centrale per l'intero processo di training, nel senso che tutti gli altri segnali, le regole operative e le indicazioni devono essere coerenti con essa.

Non si tratta di un semplice manuale di sicurezza, ma come scrive Amodei "è un elenco di principi che il modello è addestrato a utilizzare per criticare e rivedere le proprie risposte".

Perché avremmo bisogno di una Costituzione invece che di semplici regole?

Amodei afferma, sulla base delle esperienze raccolte nei laboratori di Anthropic, che le regole rigide "non possono anticipare tutte le possibili situazioni" di interazione e tendono a fallire quando i contesti diventano nuovi o imprevedibili.

L'idea è quindi quella di addestrare il modello non soltanto a rispettare divieti specifici, ma a ragionare su principi più ampi, valutando concetti come valore, beneficio e rischio. In questo modo si cerca di favorire lo sviluppo di una forma di giudizio contestuale, capace di applicare valori umani anche in situazioni non previste da casistiche predefinite.

Questo approccio — noto come Constitutional AI — combina la trasparenza dei principi (una lista esplicita di valori), una procedura di auto-critica e revisione e l'integrazione sistematica di tali principi nei cicli di addestramento.

Nel metodo della Constitutional AI, il modello viene inizialmente addestrato con dati standard e successivamente messo in dialogo con la propria Costituzione. "Il modello genera una risposta, la critica in base alla Costituzione e poi la rivede" quando necessario.

Questo processo riduce la necessità di etichette umane esplicite per ogni possibile comportamento indesiderato, poiché la Costituzione funge da "giudice" interno. Segue poi una fase di reinforcement learning basata su questi giudizi automatici, oppure su un modello che valuta il grado di conformità delle risposte ai principi costituzionali.

L'obiettivo è evitare di istruire manualmente il modello su una molteplicità di regole particolari — impresa sempre più ardua con l'aumentare della complessità — e fornirgli invece una sorta di criterio normativo interno per interpretare casi nuovi: "invece di addestrare il modello solo su quali risposte sono buone o cattive, lo addestriamo sui principi alla base di tali giudizi."

È importante notare che la Costituzione include anche indicazioni su come il modello debba affrontare temi moralmente complessi e rispondere a domande sulla propria natura. Come si legge nei documenti di Anthropic, "la costituzione specifica i principi che l'IA dovrebbe seguire, comprese le linee guida su argomenti delicati o moralmente complessi".

In particolare, viene richiesto di evitare qualsiasi affermazione che possa suggerire coscienza, intenzionalità o esperienza soggettiva: il modello deve "evitare di suggerire che abbia coscienza, intenzioni o esperienze soggettive".

La trasparenza su questi limiti non è un dettaglio secondario, ma parte integrante dell'impianto normativo della Constitutional AI, che si fonda su principi "espliciti e verificabili".

La Costituzione si colloca così oltre un semplice insieme di protocolli di sicurezza e tocca questioni di filosofia della mente, etica normativa e antropologia digitale, suggerendo che chi sviluppa sistemi di AI assume inevitabilmente una responsabilità nella definizione di valori condivisibili e robusti.

Diversi commentatori e ricercatori hanno tuttavia sottolineato alcuni punti critici:

scegliere quale Costituzione adottare implica decisioni normative fondamentali — non esiste una selezione neutrale dei valori;
anche in presenza di principi espliciti, non è garantito che modelli complessi li seguano coerentemente in ogni contesto;
resta aperta la questione di chi debba definire tali principi etici — esperti tecnici, filosofi, rappresentanti pubblici, o una combinazione di questi — e di come includere la pluralità delle prospettive culturali.

Queste osservazioni riguardano soprattutto l'efficacia e i limiti dello strumento proposto da Amodei. Esistono tuttavia critiche che si collocano su un piano diverso. Tra queste merita particolare attenzione la posizione di Andrea Pignataro in The Wrong Apocalypse, che non mette in discussione la necessità di forme di governo dell'AI, ma propone una diversa diagnosi del fenomeno.

A suo giudizio il problema principale non è la sostituzione di compiti cognitivi, bensì il modo in cui le piattaforme AI possono apprendere e incorporare la grammatica delle istituzioni economiche.

Su questa prospettiva torneremo in seguito. Per il momento conviene restare sul terreno dell'analisi di Amodei e approfondire il funzionamento della Costituzione dell'AI, che rappresenta il cuore della sua proposta.

Nel prossimo contributo analizzeremo la proposta della "Costituzione dell'AI" elaborata da Anthropic e i problemi teorici che essa solleva.

La Costituzione di AI - 2 →

Testi e documenti citati

Per chi desideri confrontarsi direttamente con i testi citati in questa analisi, sono disponibili qui i saggi di Dario Amodei, il documento di Anthropic sulla Constitutional AI e l'intervento di Andrea Pignataro.

La Costituzione di AI - 1

Testi e documenti citati