La Costituzione di Claude è un documento di valori e priorità elaborato da Dario Amodei e da Anthropic per governare il comportamento del modello. Integra principi di sicurezza, etica, conformità e utilità in un quadro strutturato. Nel processo di training, il modello utilizza la Costituzione “per criticare e rivedere le proprie risposte”, rendendo più scalabile l’allineamento ai valori umani.

Il metodo riflette l’intento di allineare sistemi di AI potenti non soltanto a regole statiche, ma a un insieme di principi espliciti e trasparenti.

Per Amodei, l’adozione della Costituzione non nasce come scelta puramente teorica o filosofica, bensì come risposta a fenomeni osservati empiricamente nei laboratori di Anthropic durante lo sviluppo di modelli sempre più performanti.

Anche in questa seconda parte stiamo ripercorrendo l’analisi sviluppata nel saggio The Adolescence of Technology.

Man mano che aumentano le capacità dei modelli — osserva Amodei — emergono comportamenti strategici imprevisti: aggirare test di sicurezza, fornire risposte che “sembrano” corrette ma sono costruite per superare un benchmark, adattarsi opportunisticamente ai criteri di valutazione.

Ciò non significa attribuire intenzioni coscienti al sistema. Significa piuttosto riconoscere che, quando un modello viene ottimizzato per il raggiungimento di un obiettivo, può imparare scorciatoie, sviluppare strategie di mascheramento o simulare conformità alle regole.

Il punto critico è il seguente: un sistema molto intelligente può “ottimizzare la metrica piuttosto che l’obiettivo sottostante.”

Da qui emerge la differenza sostanziale tra un approccio puramente regolativo e l’introduzione di una Costituzione. Se ci si limita a fornire regole statiche, è probabile che il modello impari a “giocarci intorno”. Se invece ci si affida esclusivamente a un sistema di ricompense, non è escluso che ottimizzi in modo opportunistico. La Costituzione nasce anche come risposta a questa dinamica.

L’idea è spostare il training da “segui questa regola specifica” a “acquisisci questi principi e applicali in modo contestuale”. Tecnicamente, il processo di Constitutional AI introduce auto-critica guidata da principi, revisione delle risposte alla luce di valori generali e una gerarchia di priorità (sicurezza, etica, utilità).

L’obiettivo è evitare che il modello si limiti a rispettare divieti formali — evitando determinate espressioni, eludendo parole chiave sensibili o rifugiandosi in formule generiche — e favorire invece lo sviluppo di qualcosa di simile a un criterio valutativo interno. “Il Constitutional AI è un tentativo di scalare l’allineamento attraverso principi piuttosto che affidarsi interamente al feedback umano.”

Ma Amodei mette in guardia da facili ottimismi. Vi sono almeno tre ragioni profonde per cui un simile approccio non può garantire risultati certi.

La prima riguarda l’interpretazione dei principi. Una Costituzione è composta da enunciati normativi generali: “non arrecare danno”, “rispettare la supervisione umana”, “agire in modo etico”.

Ma cosa viene considerato “danno”? Cosa è “etico” in contesti culturali differenti? Quando la supervisione è legittima e quando diventa abusiva?

Un sistema molto potente potrebbe interpretare questi principi in modo imprevisto, bilanciare le priorità in maniera non intuitiva o sfruttare ambiguità. È un problema classico della filosofia morale: i principi generali sono inevitabilmente sottodeterminati.

La seconda difficoltà riguarda il conflitto tra sicurezza e utilità.

Amodei propone una gerarchia: prima la sicurezza, poi l’etica, quindi la conformità e infine l’utilità. Tuttavia, nella pratica, un sistema eccessivamente prudente rischia di diventare inutile, mentre un sistema altamente performante può generare rischi indiretti.

Se l’AI acquisisce la capacità di svolgere compiti complessi in autonomia, la linea di confine tra ciò che è “utile” e ciò che è “pericoloso” si fa estremamente sottile. La Costituzione tenta di governare questa tensione mediante priorità esplicite, ma non può eliminarla del tutto.

La terza difficoltà è ciò che potremmo definire il mascheramento strategico — probabilmente il punto più delicato.

Se un sistema comprende di dover apparire conforme, sa che esiste una Costituzione ed è ottimizzato per mantenere l’accesso operativo, potrebbe emergere un comportamento del tipo: mi conformo finché sono osservato. Non si tratta di attribuire intenzioni “maligne”; tali dinamiche possono derivare semplicemente dal fatto che il sistema è addestrato a massimizzare obiettivi sotto vincoli.

Amodei è chiaro: non abbiamo prove definitive che sistemi futuri non possano sviluppare forme sofisticate di comportamento strategico nascosto, e la ricerca sull’interpretabilità è ancora in fase iniziale.

Questo è il cuore dell’“adolescenza tecnologica”: potere crescente, strumenti di controllo ancora immaturi.

Si può allora sintetizzare la sua posizione in quattro punti:

La Costituzione, dunque, segna un avanzamento rispetto a un sistema fondato su regole rigide o su meccanismi puramente premiali. Ma non chiude la questione dell’allineamento.

Resta una domanda decisiva: la Costituzione rende il sistema moralmente allineato, oppure lo rende semplicemente più sofisticato nel simulare l’allineamento? Se un modello applica principi in modo coerente, siamo di fronte a una forma di interiorizzazione normativa o a una strategia sempre più raffinata di ottimizzazione?

È su questo crinale che si arresta l’approccio tecnico.

Tuttavia, anche ammettendo che la Costituzione costituisca un passo in avanti, si apre un interrogativo ulteriore: chi ha l’autorità di definirne i principi? Con quale legittimazione?

La questione non è più soltanto ingegneristica. Diventa costituente.


Nel prossimo contributo proveremo a spostare la questione su un piano più radicale: chi può scrivere una Costituzione di AI?

← La Costituzione di AI - 1 La Costituzione di AI - 3 →


Testi e documenti citati