Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
OpenAI ha rilasciato i nuovi modelli o1 giovedì, offrendo agli utenti di ChatGPT la prima opportunità di provare modelli di intelligenza artificiale che si fermano a “pensare” prima di rispondere. C’è stato molto clamore attorno a questi modelli, chiamati in codice “Strawberry” all’interno di OpenAI. Ma Strawberry è all’altezza delle aspettative?
In un certo senso.
Rispetto a GPT-4o, i modelli o1 sembrano fare un passo avanti e due indietro. OpenAI o1 eccelle nel ragionamento e nel rispondere a domande complesse, ma il modello è circa quattro volte più costoso da utilizzare rispetto a GPT-4o. L’ultimo modello di OpenAI manca degli strumenti, delle capacità multimodali e della velocità che hanno reso GPT-4o così impressionante. Infatti, OpenAI ammette che “GPT-4o è ancora la migliore opzione per la maggior parte dei prompt” nella sua pagina di supporto e sottolinea che o1 fatica nei compiti più semplici.
“È impressionante, ma penso che il miglioramento non sia molto significativo”, ha detto Ravid Shwartz Ziv, professore alla NYU che studia modelli di intelligenza artificiale. “È migliore in alcuni problemi, ma non si tratta di un miglioramento generalizzato.”
Per tutti questi motivi, è importante utilizzare o1 solo per le domande per cui è veramente progettato: quelle grandi. Per essere chiari, la maggior parte delle persone oggi non utilizza l’IA generativa per rispondere a questo tipo di domande, principalmente perché i modelli di IA attuali non sono molto bravi in questo. Tuttavia, o1 rappresenta un passo preliminare in quella direzione.
Pensare attraverso grandi idee
OpenAI o1 è unico perché “pensa” prima di rispondere, scomponendo grandi problemi in piccoli passaggi e cercando di capire quando uno di questi passaggi è giusto o sbagliato. Questo “ragionamento multi-step” non è del tutto nuovo (i ricercatori lo propongono da anni e You.com lo usa per query complesse), ma non è stato pratico fino a tempi recenti.
“C’è molta eccitazione nella comunità dell’IA”, ha detto Kian Katanforoosh, CEO di Workera e docente aggiunto a Stanford che insegna corsi di apprendimento automatico. “Se puoi addestrare un algoritmo di apprendimento per rinforzo associato ad alcune delle tecniche di modelli linguistici che OpenAI ha, puoi tecnicamente creare un pensiero passo-passo e permettere al modello di IA di camminare a ritroso da grandi idee che stai cercando di risolvere.”
OpenAI o1 è anche particolarmente costoso. Nella maggior parte dei modelli, paghi per i token di input e output. Tuttavia, o1 aggiunge un processo nascosto (i piccoli passi in cui il modello scompone i grandi problemi), che richiede una grande quantità di risorse computazionali che non si vedono completamente. OpenAI sta nascondendo alcuni dettagli di questo processo per mantenere un vantaggio competitivo. Detto ciò, ti viene comunque addebitato questo processo sotto forma di “token di ragionamento.” Ciò sottolinea ulteriormente perché devi stare attento nell’utilizzare OpenAI o1, per non rischiare di pagare una grande quantità di token solo per chiedere qual è la capitale del Nevada.
L’idea di un modello di IA che ti aiuta a “camminare a ritroso da grandi idee” è potente, però. In pratica, il modello è piuttosto bravo in questo.
Ad esempio, ho chiesto alla versione di anteprima di ChatGPT o1 di aiutarmi a pianificare il Giorno del Ringraziamento con la mia famiglia, un compito che potrebbe beneficiare di un po’ di logica imparziale e ragionamento. Nello specifico, volevo aiuto per capire se due forni sarebbero stati sufficienti per cucinare una cena del Ringraziamento per 11 persone e se dovessimo considerare l’affitto di un Airbnb per avere accesso a un terzo forno.
Dopo 12 secondi di “pensiero”, ChatGPT mi ha fornito una risposta di oltre 750 parole, dicendomi infine che due forni dovrebbero essere sufficienti con una strategia accurata, permettendoci di risparmiare sui costi e trascorrere più tempo insieme. Ma ha anche scomposto il suo ragionamento, spiegando come ha considerato fattori esterni, inclusi costi, tempo in famiglia e gestione dei forni.
La versione di anteprima di ChatGPT o1 mi ha suggerito come dare priorità allo spazio del forno nella casa che ospitava l’evento, cosa che è stata intelligente. Stranamente, mi ha suggerito di considerare l’affitto di un forno portatile per il giorno. Detto ciò, il modello ha funzionato molto meglio di GPT-4o, che ha richiesto più domande di follow-up sui piatti esatti che avrei portato, e poi mi ha dato consigli superficiali che ho trovato meno utili.
Modera le aspettative
In alcuni modi, Strawberry non avrebbe mai soddisfatto tutto il clamore. Le voci sui modelli di ragionamento di OpenAI risalgono a novembre 2023, proprio quando tutti cercavano una risposta sul perché il consiglio di amministrazione di OpenAI avesse rimosso Sam Altman. Questo ha fatto nascere voci nel mondo dell’IA, con alcuni che speculavano che Strawberry fosse una forma di AGI, la versione illuminata dell’IA che OpenAI aspira a creare.
Altman ha confermato che o1 non è AGI per dissipare i dubbi, e non ci sarebbero stati dubbi dopo averlo utilizzato. Il CEO ha anche ridimensionato le aspettative su questo lancio, twittando che “o1 è ancora imperfetto, ancora limitato, e sembra più impressionante al primo utilizzo che dopo averlo utilizzato per più tempo.”
Il resto del mondo dell’IA sta facendo i conti con un lancio meno entusiasmante di quanto ci si aspettasse.
“Il clamore è un po’ sfuggito al controllo di OpenAI”, ha detto Rohan Pandey, un ingegnere di ricerca presso la startup di IA ReWorkd, che sviluppa scraper web utilizzando i modelli di OpenAI.
Pandey spera che le capacità di ragionamento di o1 siano abbastanza buone da risolvere un ristretto insieme di problemi complessi in cui GPT-4o non è all’altezza. È probabile che la maggior parte delle persone nel settore veda o1 in questo modo, ma non come il passo rivoluzionario che GPT-4 ha rappresentato per l’industria.
“Tutti stanno aspettando un cambiamento radicale nelle capacità, e non è chiaro se questo rappresenti davvero quel cambiamento. Penso sia proprio così semplice,” ha dichiarato Mike Conover, CEO di Brightwave, che in precedenza ha co-creato il modello di IA Dolly di Databricks.
Qual è il valore di tutto ciò?
I principi di base utilizzati per creare o1 risalgono a diversi anni fa. Google ha utilizzato tecniche simili nel 2016 per creare AlphaGo, il primo sistema di IA a battere un campione mondiale del gioco da tavolo Go, come sottolinea Andy Harrison, ex dipendente di Google e CEO della società di venture capital S32. AlphaGo si è addestrato giocando contro se stesso innumerevoli volte, essenzialmente auto-apprendendo fino a raggiungere capacità sovrumane.
Harrison nota che questo porta a un antico dibattito nel mondo dell’IA.
“Il campo uno pensa che puoi automatizzare i flussi di lavoro attraverso questo processo agentico. Il campo due pensa che, se avessi un’intelligenza e un ragionamento generalizzati, non avresti bisogno di flussi di lavoro e, come un essere umano, l’IA prenderebbe semplicemente una decisione,” ha detto Harrison in un’intervista.
Harrison si colloca nel primo campo, sostenendo che il secondo richiederebbe di affidarsi completamente all’IA per prendere decisioni corrette. Non crede che siamo ancora arrivati a quel punto.
Tuttavia, altri vedono o1 non tanto come un decisore, ma più come uno strumento per mettere in discussione il proprio ragionamento su grandi decisioni.
Katanforoosh, il CEO di Workera, ha descritto un esempio in cui doveva intervistare un data scientist per lavorare nella sua azienda. Ha chiesto a OpenAI o1 come valutare un certo numero di competenze in soli 30 minuti. Con l’aiuto del modello, ha potuto riflettere al contrario per capire se stesse considerando correttamente i vincoli di tempo e le competenze da valutare, e o1 ha compreso bene queste limitazioni.
La questione è se questo strumento utile valga il prezzo elevato.
Con i modelli di IA che stanno diventando sempre più economici, o1 è uno dei primi modelli di IA da un po’ di tempo a questa parte ad essere più costoso.