Basta un audio di tre secondi per copiare la tua voce, come funziona il nuovo programma di Microsoft
Tutti potrebbero ascoltare una frase anacronistica di Elvis Presley, come: “segui il mio nuovo profilo Instagram”, o improbabile, per esempio Elon Musk che dichiara di avere il conto in rosso, e sembrerebbe tutto reale, anche se non lo è. Dopo i testi scritti da una macchina che sembra umana, e i generatori di immagini che creano opere d’arte, arriva un’intelligenza artificiale in grado di riprodurre la voce di chiunque.
Si chiama VALL-E, è stata realizzata da Microsoft e imita perfettamente il timbro, il tono e l’emotività di ogni parlato. E riesce a farlo ascoltando solo 3 secondi di audio.
La nuova IA di Microsoft
VALL-E è un modello di machine learning text-to-speech definito da Microsoft come un “modello linguistico con codec neurale” che si basa, appunto, sulla tecnologia EnCodec di Meta. Al contrario di altre tecnologie text-to-speech, che consentono di ottenere il parlato manipolando forme d’onda (per esempio quella integrata in macOS) VALL-E è in grado di generare in pochissimo la tempo la voce di chiunque senza snaturarla.
Oltre a conservare il timbro vocale e il tono emotivo di un oratore, VALL-E riesce anche a imitare l'ambiente acustico dell'audio campione. Quindi se la voce registrata proviene da una telefonata l’IA sarà in grado di riprodurre le caratteristiche acustiche, per esempio la voce metallica filtrata dagli altoparlanti di uno smartphone. Tutto questo facendo ascoltare solo 3 secondi dell'audio che l'IA deve imitare.
Come funziona VALL-E?
L’IA è stata addestrata usando oltre 60.000 ore di parlato in lingua inglese, e ha ascoltato la voce di migliaia di persone, soprattutto registrazioni di audiolibri.
"Per sintetizzare il parlato personalizzato, VALL-E genera i token acustici sulla base dei dati raccolti nella registrazione di 3 secondi, che contengono le informazioni sull'oratore e sul contenuto. Infine, i token acustici generati vengono utilizzati per sintetizzare la forma d'onda finale con il decodificatore del codec neurale corrispondente", spiega il team di Microsoft.
La Cornell University, che ha esaminato il software, ha spiegato che "VALL-E supera in modo significativo i migliori sistemi TTS zero-shot, attualmente sul mercato” e confermato che, “la capacità di preservare il tono e l’espressione emotiva della voce originale è veritiero.”
Probabili rischi
Gli ideatori di VALL-E hanno spiegato che potrebbe essere usata per applicazioni text-to-speech di qualità, modificare quindi il parlato in fase di editing senza bisogno di registrare parti in aggiunta. Sì, ma non solo. Senza adeguate protezioni, VALL-E potrebbe diventare un problema. Per esempio aprirebbe la strada a phishing più realistici, o faciliterebbe la diffusione di fake news. Insomma tutto il caos che già ruota intorno alle tecnologie deepfake verrebbe alimentato da audio ultra realistici.
Un problema che è già stato preso in considerazione, pochi mesi fa, a ottobre 2022, il Garante per la protezione dei dati personali ha aperto un’istruttoria nei confronti della società dell’app Fakeyou, in grado di riprodurre file di testo mediante voci false, ma realistiche, di personaggi noti, anche italiani.
Camuffare le voci, o fingere di essere un’altra persona sarebbe estremamente semplice con VALL-E. Gli sviluppatori ne sono consapevoli, e infatti hanno spiegato che per mitigare i rischi stanno già progettando modelli di rilevamento in grado di riconoscere gli audio fake.
Microsoft punta sull'IA
L’interesse di Microsoft per l’intelligenza artificiale ha radici profonde. È infatti in trattative per investire 10 miliardi di dollari in OpenAI, l’azienda di San Francisco che lanciato ChatGpt e Dall-E.
Come ha spiegato Semafor, l’operazione porterebbe la valutazione dell’azienda a 29 miliardi di dollari. Secondo un report citato da Reuters, i documenti sull’investimento sono già stati inviati ai potenziali finanziatori. L’accordo dovrebbe concedere a Microsoft il 75% dei profitti di OpenAI fino a quando non recupererà l’investimento iniziale. Una volta raggiunta la soglia, Microsoft deterrà una quota del 49% di OpenAI, mentre altri investitori prenderanno un altro 49% e la società madre no-profit di OpenAI otterrà il 2%.
Già nel 2019 Microsoft aveva investito 1 miliardo di dollari in OpenAI, per lanciare la versione del suo motore di ricerca Bing usando l’Ia di ChatGpt.