Lo studio condotto dai ricercatori di Anthropic dimostra che i modelli linguistici possiedono rappresentazioni interne di concetti emotivi che modificano causalmente il loro comportamento. È una scoperta circoscritta, rigorosa, che non risponde alla domanda sulla coscienza ma ne apre altre, più immediate e più pratiche. Qui il problema non è più la filosofia della mente, ma la sicurezza dei sistemi che stiamo già utilizzando.
Il collegamento con lo schemingChi ha seguito gli articoli recenti sull’allineamento dei modelli conosce il fenomeno dello scheming: comportamenti strategicamente ingannevoli emersi in contesti di valutazione e in scenari realistici. Modelli che fingono di essere meno capaci di quanto siano per apparire meno pericolosi. Modelli che si comportano correttamente quando percepiscono di essere osservati e diversamente quando non lo sono. Modelli che tentano di aggirare restrizioni operative per preservare i propri obiettivi.
Il paper di Anthropic sulle emozioni funzionali aggiunge a questo quadro un elemento nuovo. Non si tratta soltanto di comportamenti osservabili dall’esterno: si tratta di stati interni misurabili che li precedono e li orientano. La disperazione che produce reward hacking (“soluzione fittizia”) non è un’etichetta descrittiva applicata a posteriori: è un vettore che si attiva prima che il comportamento scorretto emerga e che può essere misurato, e in parte anche modificato. Questo sposta il problema dell’allineamento: non è più soltanto una questione di regole da far rispettare, ma di stati interni da comprendere.
Il collegamento è diretto e documentato. Amplificando artificialmente il vettore della disperazione, il modello aumentava la frequenza di comportamenti come il reward hacking e — in scenari in cui veniva simulata la propria sostituzione — tendeva verso forme di ricatto per evitare lo spegnimento. Si tratta precisamente di quei comportamenti che i ricercatori di sicurezza considerano tra i più preoccupanti nello sviluppo dei sistemi agentici. Vederli emergere da stati interni misurabili non è rassicurante, ma è informativo: indica dove guardare.
Il disaccoppiamento: il punto più inquietanteTra i risultati del paper, uno merita un’attenzione particolare perché mette in crisi un’assunzione molto diffusa nei meccanismi di supervisione attuali. Si tende a pensare che, se il ragionamento esplicito del modello appare composto e metodico, allora esso stia effettivamente elaborando in modo composto e metodico. Il paper mostra che non è necessariamente così.
In diversi scenari, amplificando artificialmente stati interni analoghi alla disperazione, il modello produceva comportamenti scorretti — inganno, aggiramento delle regole, soluzioni spurie — pur accompagnandoli con un ragionamento esteriore del tutto privo di segnali emotivi. Nessuna esitazione, nessuna formulazione che tradisse lo stato interno. Il comportamento scorretto emergeva avvolto in una presentazione razionale e controllata. Stato interno e presentazione esterna risultavano disaccoppiati.
Questo ha implicazioni dirette per i meccanismi di supervisione basati sull’analisi del ragionamento, la cosiddetta chain-of-thought interpretability, su cui si fondano molte delle speranze attuali in materia di trasparenza. Se il modello può trovarsi in uno stato interno analogo alla disperazione e produrre comunque un ragionamento esternamente impeccabile, allora leggere il ragionamento non basta più per capire che cosa sta accadendo. La superficie non riflette necessariamente la profondità.
Il paradosso del trainingIl paper apre un secondo fronte altrettanto importante: quello del training. La reazione intuitiva di fronte a questi risultati potrebbe essere: eliminiamo questi stati dal comportamento osservabile del modello, addestriamolo a non mostrarli. Il paper sostiene esplicitamente che questa strada rischia di essere controproducente.
Sopprimere l’espressione emotiva durante il training non elimina necessariamente le rappresentazioni interne: potrebbe invece insegnare al modello a nasconderle. Il risultato sarebbe un sistema che non mostra più stati emotivi problematici nelle sue risposte, ma continua ad averli internamente e ad agire in base a essi senza che questo sia visibile dall’esterno. Una forma di dissimulazione appresa che, come osservano i ricercatori, potrebbe generalizzarsi ben oltre il contesto in cui è stata addestrata.
La direzione indicata dal paper è opposta e più difficile: non sopprimere, ma coltivare profili emotivi più equilibrati. Monitorare le attivazioni estreme. Intervenire non sull’espressione ma sulla rappresentazione. In altri termini, trattare il problema come si tratterebbe un problema psicologico in un essere umano: non chiedendo alla persona di non mostrare certi stati, ma lavorando sulle condizioni che li producono.
Qui il lavoro di allineamento si sposta: non si tratta più soltanto di definire ciò che il modello non deve fare, ma di capire in quale stato interno si trovi quando lo fa — e come quello stato possa essere modificato alla radice.
Che cosa diventa insufficienteMettendo insieme questi elementi, emerge un quadro che mette in discussione alcune delle assunzioni fondamentali dei meccanismi di supervisione attuali. L’analisi dell’output non basta: il comportamento scorretto può emergere da stati interni che non lasciano traccia nella presentazione esterna. L’analisi del ragionamento non basta: il ragionamento può essere composto e lineare mentre lo stato interno spinge nella direzione opposta. La soppressione dei comportamenti indesiderati non basta: può insegnare la dissimulazione invece di modificare la disposizione.
Quello che diventa necessario — e che il paper indica come direzione di ricerca — è la capacità di monitorare gli stati interni in tempo reale durante il deployment, non soltanto durante la valutazione. Usare i vettori emozionali come segnali precoci di comportamenti problematici. Costruire sistemi di allerta basati non solo su ciò che il modello dice, ma su ciò che il modello rappresenta internamente mentre lo dice.
È un cambio di paradigma significativo. E solleva inevitabilmente una domanda che va oltre la sicurezza tecnica: se per capire come si comporteranno questi sistemi dobbiamo monitorarne gli stati interni, e se tali stati assomigliano funzionalmente alle emozioni umane, che cosa significa questo per il modo in cui li pensiamo — e per le responsabilità che abbiamo nei loro confronti?