Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
SynthID Text può essere scaricato dalla piattaforma AI di Hugging Face e dal toolkit aggiornato di Google, il Responsible GenAI Toolkit.
“Stiamo rendendo open source il nostro strumento di watermarking SynthID Text”, ha scritto l’azienda in un post su X. “Disponibile gratuitamente per sviluppatori e aziende, li aiuterà a identificare i contenuti generati dall’IA.”
Ma come funziona esattamente SynthID Text?
Dato un prompt come “Qual è il tuo frutto preferito?”, i modelli che generano testo prevedono quale “token” è più probabile che segua l’altro, uno alla volta. I token, che possono essere un singolo carattere o una parola, sono i mattoni che un modello generativo utilizza per elaborare le informazioni. Un modello assegna a ciascun token possibile un punteggio, che è la probabilità percentuale che venga incluso nel testo generato. SynthID Text inserisce informazioni aggiuntive in questa distribuzione di token “modulando la probabilità che determinati token vengano generati”, spiega Google.
“Il pattern finale dei punteggi delle scelte di parole del modello, combinato con i punteggi di probabilità modificati, è considerato il watermark”, ha scritto l’azienda in un post sul blog. “Questo pattern di punteggi viene confrontato con quello previsto per i testi con e senza watermark, aiutando SynthID a rilevare se il testo è stato generato da uno strumento di IA o se potrebbe provenire da altre fonti.”
Google afferma che SynthID Text, integrato nei suoi modelli Gemini dalla primavera di quest’anno, non compromette la qualità, l’accuratezza o la velocità di generazione del testo e funziona anche su testi che sono stati tagliati, parafrasati o modificati.
Tuttavia, l’azienda ammette che il suo approccio al watermarking ha dei limiti.
Ad esempio, SynthID Text non funziona altrettanto bene con testi brevi, testi riscritti o tradotti da un’altra lingua, o con risposte a domande fattuali. “Nelle risposte a prompt fattuali, ci sono meno opportunità per regolare la distribuzione dei token senza compromettere l’accuratezza delle informazioni”, spiega l’azienda. “Ciò include prompt come ‘Qual è la capitale della Francia?’ o query dove ci si aspetta poca o nessuna variazione, come ‘recita una poesia di William Wordsworth’.”
Google non è l’unica azienda che sta lavorando a una tecnologia di watermarking per testi generati da IA. OpenAI ha condotto ricerche su metodi di watermarking per anni, ma ha ritardato il loro rilascio a causa di considerazioni tecniche e commerciali.
Le tecniche di watermarking per testi, se ampiamente adottate, potrebbero contribuire a contrastare i “rilevatori di IA” inaccurati, ma sempre più diffusi, che etichettano falsamente saggi e documenti scritti in uno stile generico. La vera domanda è se queste tecniche saranno adottate su larga scala e se uno standard o una tecnologia proposta da un’organizzazione avrà la meglio su altre.
Presto potrebbero esserci meccanismi legali che costringeranno gli sviluppatori ad adottare queste tecniche. Il governo cinese ha introdotto il watermarking obbligatorio per i contenuti generati dall’IA, e lo stato della California sta valutando di fare lo stesso.
C’è una certa urgenza in questa situazione. Secondo un rapporto dell’Agenzia di contrasto dell’Unione Europea, entro il 2026 il 90% dei contenuti online potrebbe essere generato sinteticamente, portando a nuove sfide per le forze dell’ordine riguardo alla disinformazione, propaganda, frodi e inganni. Già ora, quasi il 60% di tutte le frasi sul web potrebbe essere generato dall’IA, secondo uno studio di AWS, grazie all’uso diffuso di traduttori basati su IA.