“Hanno usato l’intelligenza artificiale per fingere il rapimento di mia figlia, è stato tremendo”
Jennifer DeStefano vive in Arizona, negli Stati Uniti. Nello specifico vive a Scottsdale, a est della capitale Phoenix. Negli ultimi giorni è stata intervistata da diversi media internazionali, dal The Guardian alla Nbc per quello che potrebbe essere uno dei primi casi di rapimento in cui ad essere rapita è stata solo la voce di una persona. Scrive DeStefano: “Al telefono, ho sentito mia figlia Briana urlare e gridare: "Aiutami, aiutami”. C’era una voce maschile al telefono. Diceva che aveva mia figlia e mi diceva anche che se provavo a dirlo a qualcuno le avrebbe riempito lo stomaco di droghe, l'avrebbe lasciata in Messico e non l'avrei mai più rivista”.
Il racconto rilasciato da DeStefano si concentra su due punti. Il primo è il tempismo. La figlia Briana, 15 anni, non era in casa, era con il padre in una città a circa due ore di distanza per una gara di sci. Il secondo era che l’uomo al telefono diventava sempre più minaccioso e intervallava la sua voce con degli audio di Briana che sembravano reali. L’uomo le aveva chiesto di pagare un milione di dollari. Cifra poi rivista di diversi zeri fino a che lo scambio non era stato fissato attorno ai 50.000 dollari.
In tutto questo, DeStefano non si trovava a casa da sola ma insieme ad altri genitori davanti alla classe di danza della figlia più piccola, Aubrey. Sono stati gli altri genitori che hanno allertato il 911, il numero delle emergenze negli Stati Uniti. Gli agenti a questo punto hanno segnalato alle persone coinvolte in questa storia che negli ultimi tempi stava aumentando il numero di truffe fatte con voci rubate dall'intelligenza artificiale. DeStefano ha capito l'inganno e ha spento il telefono.
“Ho fatto fatica a credere che la voce di mia figlia non fosse reale. Mi sembrava di sentirla piangere. Quando poi mi sono messa in contatto con la polizia sono rimasta devastata nel sentire che gli investigatori lo consideravano poco più di uno scherzo e quindi non avrebbero aperto le indagini: nessuno era stato ferito e non era stato preso del denaro”.
È davvero possibile riprodurre la voce di una persona con l’intelligenza artificiale?
Nell’ottobre del 2022 era diventata virale una piattaforma che permetteva di riprodurre la voce di persone note e meno note. Si chiamava FakeYou e con un input di qualche riga e un paio di minuti di pazienza si poteva creare un audio con una voce molto simile a quella di Papa Francesco, di Giorgia Meloni o Gerry Scotti. Il risultato, nella versione gratuita, era posticcio. Ma faceva già capire le potenzialità di questa tecnologia e i suoi pericoli per la creazione di fake news.
A gennaio del 2023 il salto di qualità. Microsoft ha presentato VALL-E, un software che è in grado di riprodurre qualsiasi voce esistente al mondo, definendo anche parametri come timbro e cadenza. Questa intelligenza artificiale è stata addestrata con 60.000 ore di parlato in lingua inglese ed è talmente sofistica che è i grado di riprodurre anche il rumore di fondo dell’audio che viene usato come campione per addestrarla.