Bastano 15 secondi per clonare la tua voce: come funziona il nuovo programma di OpenAI
In un futuro non troppo lontano potremo usare la nostra voce per parlare lingue che non abbiamo mai imparato. Non utopia, è una realtà firmata da OpenAI e si chiama Voice Engine. L’unico problema è che il progetto per adesso non è aperto al pubblico ma solo a un ristretto gruppo di associazioni e centri di ricerca.
Il funzionamento è semplice: bastano appena quindici secondi di voce registrata e l’intelligenza artificiale fa tutto il resto. Una voce che può anche essere stata registrata per altri scopi, come è capitato a una giovane paziente che non parla più come una volta e che ha fornito al software un campione audio preso da un vecchio video.
Quando verrà rilasciato
OpenAI non è nuova all’idea di combinare l’intelligenza artificiale con la voce umana. Dal lancio di ChatGPT, il prodotto di punta dell’azienda, sono state presentate diverse possibilità per trasformare il testo in un pezzo parlato (compresa la funzionalità per leggere quello che l’IA generativa scrive). Lo stesso progetto di Voice Engine è nato alla fine del 2022 e in meno di due anni ha raccolto adesioni di associazioni e centri di ricerca per mettere alla prova lo strumento.
Per adesso si tratta solo di una presentazione. Ancora non si sa, infatti, quando Voice Engine verrà rilasciato a un pubblico più ampio. A tenere lontane le mani (e le voci) degli utenti di tutto il mondo ci sono forse le preoccupazioni per gli usi impropri che possono essere fatti di questa tecnologia. Intanto, però, la stessa OpenAI ha lanciato alcune idee su come potrebbe essere utilizzato (bene) in futuro.
L'uso per scopi educativi
Si può anche clonare la propria voce per riutilizzarla in altre occasioni, per esempio per scopi educativi. È il caso della collaborazione di OpenAI con Age of Learning, una compagnia che si occupa di sviluppare strumenti tecnologici per l’insegnamento e che ha implementato la tecnologia di clonazione per aiutare nella lettura.
Oppure, si può usare Voice Engine per campionare la propria voce e trasmettere contenuti in tutte le lingue che non si parlano davvero. Per esempio, registrando i quindici secondi di audio in italiano, la si potrà utilizzare per leggere testi in inglese, spagnolo, cinese e giapponese (mantenendo un accento della propria lingua). Per adesso l’esperimento è stato condotto da HeyGen, che si definisce come una “piattaforma di storytelling”.
Ridare la voce a chi l'ha persa
Oltre agli ambiti educativi, anche quelli sanitari possono beneficiare della novità. Per esempio, per dare la possibilità di comunicare a chi ha sempre avuto problemi a farlo. Oppure, per chi ha perso la possibilità a causa di una malattia oncologica o degenerativa. È il caso di una giovane paziente che, per colpa di un tumore al cervello, non è stata più in grado di parlare in maniera fluente. Sono bastati quindici secondi di audio presi dal video di un progetto scolastico registrato tempo prima per poter clonare la sua voce e utilizzarla per comunicare con il mondo non solo per presentare il progetto di Voice Engine, ma anche per ordinare al ristorante, come si sente nell'esempio pubblicato da OpenAI.
I rischi delle voci clonate
Se fossero solo benefici, non ci sarebbero problemi a distribuire il software al pubblico. E invece le preoccupazioni per un uso dannoso non mancano. OpenAI ha deciso di temporeggiare prima di rilasciare Voice Engine e, intanto, ha preso alcune precauzioni con le aziende che hanno avuto in anteprima accesso all’intelligenza artificiale.
Innanzitutto, un watermark per marchiare il file audio e segnalarlo come generato dall’intelligenza artificiale. Un’etichetta che deve essere chiaramente esposta anche dalle stesse aziende, che devono segnalare quando un audio è stato generato con Voice Engine. E, per non essere avari di precauzioni, OpenAI ha chiesto ad aziende e centri di ricerca di firmare una lunga lista di regole per evitare che la tecnologia venga usata per clonare le voci di persone che non sono state direttamente coinvolte nel progetto.
La preoccupazione principale è che questa tecnologia venga usata per copiare la voce di persone celebri come è capitato al presidente americano Joe Biden durante la campagna per le primarie, quando un altro software è stato utilizzato per impersonarlo a sua insaputa.