DeepSeek ha copiato illecitamente i modelli di OpenAI?

Verso la fine di gennaio di quest’anno, la cinese DeepSeek ha presentato un nuovo modello di intelligenza artificiale chiamato R1, che sembrava funzionare bene quanto i modelli statunitensi esistenti, pur essendo prodotto a costi molto inferiori. I trader non se lo aspettavano sul calendario economico e hanno immediatamente perso fiducia in Nvidia – uno dei maggiori produttori di hardware IA – vendendo le loro azioni, che hanno subito un calo del 17% di valore.

Comprensibilmente, OpenAI (i creatori di ChatGPT) non erano contenti, ma erano anche convinti che l’azienda cinese avesse agito illecitamente – rubando la loro proprietà intellettuale – per arrivare al loro prodotto. “Sappiamo che gruppi nella RPC [Repubblica Popolare Cinese] stanno attivamente lavorando per... replicare modelli avanzati di IA statunitensi”, ha detto un portavoce di OpenAI. In una certa misura, è comune che le startup IA usino le risposte di modelli affermati per addestrare i propri prodotti, ma i margini consentiti sono limitati. Il processo di “distillazione”, con cui i piccoli modelli vengono addestrati su quelli più grandi, potrebbe violare i termini di servizio di OpenAI, e ciò ci porta nell’intricato tema dei diritti di proprietà intellettuale (IP) e di come possano essere applicati.

Se i modelli linguistici di grandi dimensioni (LLM) come ChatGPT sono solo imitatori abili del discorso umano, senza una propria personalità, sarebbe possibile dimostrare che un determinato testo proviene da un determinato modello? Se lo fosse, allora si potrebbero proteggere i diritti IP degli innovatori in ambito IA in futuro. Unisciti a noi per una discussione.

Copyleaks

Secondo Copyleaks – una piattaforma di analisi testuale basata su IA – la risposta è sì: “Il nostro algoritmo è in grado di identificare le differenze tra un dataset umano e il più recente dataset scritto da IA”. L’algoritmo è addestrato su milioni di testi creati sia da esseri umani che da modelli IA, e può individuare frasi, grammatica, uso di trattini e dispersione delle sillabe che sono più caratteristiche dell’IA rispetto agli scrittori umani.

Il loro metodo di test è piuttosto rigoroso. Tutti e tre i classificatori dell’algoritmo devono concordare prima che si raggiunga una conclusione, il che conferisce al sistema un tasso di precisione del 99,8%, con una probabilità estremamente bassa (0,04%) di falsi positivi. All’inizio di marzo 2025, Copyleaks ha utilizzato la sua tecnologia per cercare le impronte stilistiche di OpenAI nei testi generati da DeepSeek. I risultati sono stati sorprendenti: il 74,2% dei testi di DeepSeek mostrava segni evidenti dello stile unico di OpenAI. Per confronto, il modello IA di Microsoft, chiamato Phi-4, ha mostrato un tasso di non conformità con OpenAI del 99,3%, e il modello Grok-1 di Elon Musk ha registrato zero somiglianze con OpenAI. Copyleaks ha concluso che: “Le affermazioni di DeepSeek su un metodo rivoluzionario e a basso costo per l’addestramento... potrebbero aver fuorviato il mercato, contribuendo alla perdita di 593 miliardi di dollari in un solo giorno per Nvidia e conferendo a DeepSeek un vantaggio sleale”.

Perché l’IA dovrebbe mostrare proprie peculiarità stilistiche se non è altro che un imitatore di talento? Perché ogni modello è addestrato su un diverso sottoinsieme di dati – un mix di pagine web, libri e riviste – che gli conferisce un modo di esprimersi parzialmente unico. Inoltre, talvolta viene istruito a rivolgersi agli utenti con toni specifici, ad esempio formali o cortesi.

Watermark

Google ha creato uno strumento, chiamato SynthID, che imprime nei testi generati dall’IA “filigrane” sottili ma riconoscibili. Ecco come funziona: gli LLM operano prevedendo il token (carattere, parola o frase) successivo più probabile in una sequenza. La scelta del token è influenzata dalle parole precedenti, ma anche dai punteggi di probabilità (una sorta di meccanismo di selezione) che scelgono tra i candidati. SynthID regola i punteggi di probabilità dei token potenziali in modi che gli esseri umani non percepiscono, ma i computer sì. Per esempio, SynthID potrebbe essere programmato per selezionare un vocabolario meno comune in determinati modi fissi che non alterano il significato del testo. Successivamente, questi schemi linguistici potrebbero essere identificati per provare che il testo proviene da un particolare LLM.

“SynthID non è una soluzione miracolosa per identificare contenuti generati da IA”, afferma Google. Ma “può aiutare milioni di persone a prendere decisioni consapevoli su come interagire con i contenuti generati dall’IA”. Uno dei principali motivi per cui Google ha creato SynthID è combattere la disinformazione malevola diffusa tramite LLM. In effetti, SynthID funziona anche su immagini, suoni e video, il che ne estende notevolmente l’utilizzo. Nell’ottobre 2024, SynthID è stato reso open source.

Considerazioni finali

Gli strumenti avanzati creati da Copyleaks e Google catalizzeranno le discussioni sui confini dei diritti IP nei tempi a venire, contribuendo anche a farli rispettare con efficienza e precisione. Un ambito in cui ciò avrà certamente un impatto è la battaglia per le quote di mercato degli LLM. Il governo degli Stati Uniti è motivato da preoccupazioni di sicurezza nazionale a contrastare il furto di proprietà intellettuale in questo settore cruciale, ed è per questo che collabora con OpenAI per proteggere i suoi migliori modelli da imitazioni illecite. Oltre al furto di IP, gli esperti sono preoccupati per il fatto che DeepSeek memorizza grandi quantità di dati degli utenti su server cinesi, potenzialmente accessibili e utilizzabili dal governo cinese. Questo si allinea alle preoccupazioni dei senatori statunitensi riguardo all’azienda di social media TikTok, controllata dalla cinese ByteDance.

Microsoft – partner di OpenAI – ha aiutato nelle indagini sugli account presumibilmente controllati da DeepSeek, che in molti casi sono stati bloccati. Da aprile di quest’anno, OpenAI richiede la verifica dell’ID governativo per qualsiasi sviluppatore IA che voglia usare i suoi modelli. La stretta su questo tema – sensibile sia dal punto di vista economico che della sicurezza nazionale – è già in atto. Mentre i dazi all’importazione sui beni cinesi imposti dal presidente Donald Trump innescano una tendenza al protezionismo commerciale – o persino all’ostilità tra le due superpotenze – sembra che le aziende americane stiano trovando nuovi modi per proteggere i propri prodotti da imitatori illeciti. Allo stesso tempo, le pratiche di libero scambio dovranno essere mantenute, quindi stabilire regole non sarà semplice. Se stai pianificando di fare trading online di azioni IA, ricordati – tra uno sguardo e l’altro al tuo calendario economico – di restare aggiornato sulle notizie in merito.