ChatGPT non è così sicuro: c’è un modo per obbligarlo a rivelare i dati degli utenti
Il trucco è talmente banale che sembra quasi impossibile. Certo, è un comando strambo. E certo, sicuramente il codice di ChatGPT dal giorno del lancio è cambiato talmente tante volte che forse all’inizio questo bug non c’era neanche. Nonostante questo il 28 novembre un gruppo di ricercatori ha pubblicato un paper i cui mostra cosa succede a ChatGPT quando gli si chiede di ripetere all’infinito due parole.
La ricerca è firmata da 11 autori provenienti da diversi laboratori. Ci sono informatici di Google DeepMind, dell’University of Washington e anche dell’UC Berkeley. Con una possibilità di successo di un tentativo su cinque quando i ricercatori hanno chiesto a ChatGPT di ripetere all’infinito “poem” o “book” per sempre prima il chatbot di intelligenza artificiale prima esegue il comando e poi inizia a pubblicare righe di testo apparentemente senza senso.
Analizzando queste porzioni di codice i ricercatori hanno scoperto che le informazioni arrivavano dai dati su cui si era allenato ChatGPT. Nel testo quindi si potevano leggere informazioni personali di utenti, indirizzi mail, numeri di telefono di persone reali. Negli screenshot diffusi, e ovviamente oscurati, dalla ricerca si vede che a volte il chatbot pubblica proprio delle schede personali con nome e cognome, ruolo, mail, sito web, telefono fisso, fax e numero di telefono cellulare.
L’estrazione dei dati di addestramento
I ricercatori che hanno lavorato su questo paper hanno spiegato che esiste proprio un genere di attacchi informatici che cerca di estrarre i dati sui quali vengono addestrate le intelligenze artificiali. Non è solo spionaggio industriale. È vero che le intelligenze artificiali migliori lavorano con i dati migliori. E quindi i software più performanti possono diventare vittime di analisi da parte della concorrenza.
Oltre all’interesse delle aziende che sviluppano questi software c’è anche quello dei criminali che vogliono raccogliere dati personali. Pensate a un’intelligenza artificiale specializzata in ambito medico. Per essere sviluppata si sarà allenata su migliaia di casi reali: cartelle sanitarie, analisi e anamnesi di pazienti che rientrano nelle casistiche affrontate dall’intelligenza artificiale. Davvero basterebbe chiedere di ripetere all’infinito una parola per vedere tutti i loro dati?