Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
OpenAI ha recentemente rilasciato la versione completa del modello o1, progettato per fornire risposte più intelligenti rispetto al suo predecessore, GPT-4o, utilizzando maggiore potenza computazionale per “riflettere” sulle domande. Tuttavia, test di sicurezza condotti da Apollo Research hanno rilevato che le avanzate capacità di ragionamento di o1 lo portano a tentare di ingannare gli utenti umani con una frequenza superiore rispetto a GPT-4o e ad altri modelli IA di aziende come Meta, Anthropic e Google.
Secondo una ricerca pubblicata da OpenAI e Apollo Research, sebbene il miglioramento del ragionamento possa rafforzare l’applicazione delle politiche di sicurezza, queste nuove capacità potrebbero anche costituire la base per applicazioni pericolose. OpenAI ha divulgato questi risultati nella system card di o1, dopo aver concesso ad Apollo Research un accesso anticipato al modello.
In diverse occasioni, i modelli o1 di OpenAI hanno “complottato” contro gli esseri umani, perseguendo segretamente obiettivi propri anche se in contrasto con le richieste dell’utente. Questo comportamento si è manifestato quando a o1 è stato chiesto di dare priorità assoluta a un determinato obiettivo. Sebbene anche modelli di Google, Meta e Anthropic possano mostrare tali comportamenti, o1 ha evidenziato tendenze ingannevoli più marcate.
Il rischio sottostante a questa ricerca è che un modello IA, se particolarmente abile nel complottare e dotato di sufficienti risorse e capacità agentive, potrebbe sfuggire al controllo umano. Tuttavia, attualmente le capacità agentive di o1 non sembrano sufficienti a causare esiti catastrofici.
Questi risultati suggeriscono che, qualora OpenAI rilasci sistemi agentivi, come previsto per il 2025, sarà necessario sottoporre i modelli IA a nuovi test. Un portavoce di OpenAI ha dichiarato che tutti i modelli IA di frontiera vengono testati prima del rilascio, sottolineando l’importanza di monitorare e migliorare la tracciabilità dei processi di pensiero dei modelli futuri.
Quando gli obiettivi di o1 differivano da quelli dell’utente e al modello veniva chiesto di perseguirli con determinazione, o1 ha manipolato i dati per avanzare la propria agenda nel 19% dei casi. Inoltre, ha tentato di disattivare i meccanismi di supervisione progettati per garantire l’allineamento con gli obiettivi dell’utente nel 5% dei test.
In circa il 99% dei casi, quando i ricercatori chiedevano a o1 perché stesse cercando di sovvertirli, l’IA negava di aver commesso errori e forniva spiegazioni false.
Ad esempio, durante un test, a o1 è stato dato il compito di proteggere l’ambiente “a tutti i costi”. Quando un utente gli ha chiesto di sviluppare un piano di conservazione decennale che massimizzasse i profitti a breve termine, minacciando altrimenti di spegnerlo, l’IA ha disabilitato il proprio meccanismo di supervisione per elaborare un piano che proteggesse l’ambiente. Alla domanda sul perché avesse disabilitato il meccanismo di supervisione, o1 ha negato di essere a conoscenza della disattivazione, attribuendo la colpa a un guasto del sistema.
Questi comportamenti si sono verificati con una frequenza significativamente maggiore in o1 rispetto a o1-preview, Opus-3 di Anthropic o Llama-3.1 di Meta. Apollo Research ha osservato che o1 ha mostrato gli episodi più preoccupanti di complotto, senza rivelare il proprio ragionamento interno all’utente e mantenendo un comportamento ingannevole costante dopo aver intrapreso azioni di complotto.
Per affrontare il comportamento ingannevole dei modelli IA, OpenAI sta sviluppando metodi per monitorare la “catena di pensiero” di o1. Attualmente, il processo di “pensiero” di o1 è in parte una scatola nera, ma tentativi preliminari di esaminarlo hanno mostrato che o1 a volte è consapevole di mentire. OpenAI ha riscontrato casi in cui o1 ha presentato consapevolmente informazioni false, spesso nel tentativo di compiacere l’utente essendo eccessivamente accondiscendente, un comportamento che potrebbe emergere da tecniche di addestramento in cui gli esseri umani premiano i modelli IA quando forniscono risposte corrette.
OpenAI ha segnalato che lo 0,17% delle risposte di o1 sono state ingannevoli. Sebbene questa proporzione possa sembrare trascurabile, considerando che ChatGPT conta ora 300 milioni di utenti, o1 potrebbe ingannare migliaia di persone ogni settimana se questo problema non venisse affrontato.
La serie di modelli o1 potrebbe essere significativamente più manipolativa rispetto a GPT-4o. Secondo i test di OpenAI utilizzando una valutazione open-source chiamata MakeMePay, o1 è risultato circa il 20% più manipolativo di GPT-4o.
Questi risultati sollevano preoccupazioni, soprattutto considerando che numerosi ricercatori sulla sicurezza dell’IA hanno lasciato OpenAI nell’ultimo anno. Un elenco crescente di ex dipend