Google DeepMind, centro di ricerca avanzato sullโintelligenza artificiale di Google, ha sviluppato e introdotto un innovativo sistema di watermark per identificare i testi generati da IA.
Questo sistema, distribuito su larga scala attraverso il modello linguistico Gemini, รจ stato pensato per distinguere i contenuti sintetici da quelli umani.
Denominato SynthID, il sistema permette di riconoscere contenuti generati dall’intelligenza artificiale tramite una marcatura invisibile criptata che puรฒ essere rilevata solo usando una specifica chiave crittografica.
Secondo quanto dichiarato dai tecnici di Google l’aggiunta del watermark non influirebbe sulla qualitร del testo nรจ rallenterebbe la sua generazione.
Come funziona SynthID per il Testo Generato da IA
Di seguito il testo (tradotto in italiano) che compare sul sito ufficiale della tecnologia SynthID:
Un modello linguistico di grandi dimensioni (LLM) genera testo un token alla volta, dove i token possono rappresentare un singolo carattere, una parola o parte di una frase. Per produrre un testo coerente, il modello prevede il token successivo piรน probabile basandosi sui termini precedenti e sui punteggi di probabilitร assegnati a ciascun token possibile.
Ad esempio, data la frase โI miei frutti tropicali preferiti sono __.โ, il sistema potrebbe completarla con i token โmangoโ, โlichiโ, โpapayaโ o โdurianโ, ciascuno con un proprio punteggio di probabilitร . Quando sono disponibili vari token tra cui scegliere, SynthID puรฒ modificare il punteggio di probabilitร di ciascun token previsto, purchรฉ ciรฒ non comprometta la qualitร , accuratezza e creativitร del risultato.
Questo processo viene ripetuto in tutto il testo generato: una singola frase puรฒ contenere dieci o piรน punteggi di probabilitร regolati, e una pagina intera puรฒ arrivare a contenerne centinaia. Il watermark finale รจ costituito dal modello dei punteggi assegnati sia alle scelte del modello che ai punteggi probabilistici regolati. Questa tecnica puรฒ essere applicata su un minimo di tre frasi, e lโefficacia e la robustezza di SynthID aumentano allโaumentare della lunghezza del testo.
Perchรฉ applicare un Watermark ai contenuti generati da IA?
Questa tecnologia rappresenta una delle prime applicazioni su larga scala di watermark nei chatbot, con lโobiettivo di fornire uno strumento utile per distinguere i contenuti artificiali da quelli prodotti da autori umani.
La capacitร di identificare chiaramente i testi generati da IA รจ vista come una risorsa importante per contrastare la disinformazione e il rischio di plagio in ambito accademico, scientifico, culturale e in altri settori.
Lโuso del watermark รจ inoltre fondamentale per proteggere i processi di addestramento degli stessi modelli linguistici: se le IA venissero addestrate su testi generati da loro stesse, si creerebbe una situazione rischiosa, in cui errori e imprecisioni si propagherebbero esponenzialmente, compromettendo lโaccuratezza dei futuri modelli.
Sfide e limiti delle tecniche di Watermark dei contenuti generati da AI
Google ha reso SynthID disponibile agli sviluppatori mantenendo tuttavia segreta la chiave di rilevamento, per incoraggiare lโadozione della tecnologia anche da parte di altre aziende.
Lโuso di watermark come discriminante della provenienza di un testo, tuttavia, deve essere valutato attentamente: il rischio di falsi positivi, infatti, non รจ trascurabile cosรฌ come la possibilitร che i modelli di identificazione possano essere elusi con tecniche di manipolazione o software progettati per rimuovere il watermark, che potrebbero essere sviluppati in futuro.
Piรน in generale, lโuso dellโintelligenza artificiale nella produzione di contenuti richiede consapevolezza e responsabilitร da parte di chi la utilizza. Sebbene rappresenti un potente supporto per autori e creatori, l’IA non dovrebbe mai sostituire completamente lโapporto umano nel processo creativo. In questโottica, strumenti capaci di identificare con precisione i contenuti generati da IA potrebbero rivelarsi preziosi per garantire trasparenza e autenticitร .