Google lancia Lumiere, l’IA che crea video realistici partendo da un testo: come funziona
Dovremo abituarci, nei prossimi mesi verranno lanciate a ritmo serrato nuove intelligenze artificiali generative. L'ultima annunciata appartiene a Google. Si chiama Lumiere, un omaggio ai fratelli che hanno inventato la macchina da presa e il proiettore cinematografico. La nuova IA, in grado di realizzare video realistici, è stata creata con l'aiuto del Weizmann Institute of Science e dell'Università di Tel Aviv. Lumiere è versatile, si può chiedere al software di animare un orsetto di peluche, far muovere in time lapse la Notte stellata di Van Gogh, o chiedere di creare, partendo da una stringa di parole, due procioni che leggono un libro.
L'IA di Google è in grado di creare video di cinque secondi con una risoluzione 1024×1024. Alcuni tradiscono la natura artificiale, altri invece sono realistici, basta guardare la tartaruga che compare all'inizio del video di presentazione. Lumiere utilizza “un modello di diffusione spazio-temporale per la generazione di video realistici“, chiamato Space-Time-U-Net, o STUNet, che consente la generazione dell’intera durata temporale di un video in un unico passaggio. I modelli video tradizionali sintetizzano invece i fotogrammi, il problema è che spesso, durante l'assemblaggio, compaiono scene incoerenti o elementi fuori contesto. Il modello video di Lumiere è stato addestrato su un set di dati di 30 milioni di video, ma, come spesso succede, non è chiara la fonte che ha nutrito l'IA di Google.
Come funziona Lumiere
L'intelligenza artificiale generativa ci ha abituato al potere della parola. Basta digitare un prompt, premere invio, e osservare i risultati. Oltre alla generazione text-to-video, Lumiere permetterà anche di creare contenuti image-to-video, gli utenti potranno quindi realizzare un filmato animando un frame. Non solo. Il modello supporterà diverse funzionalità, tra queste l'inpainting, per inserire o modificare oggetti specifici (per esempio cambaire il colore di un vestito), la cinemagraph, per aggiungere movimento in aree specifiche di una scena, e la generazione stilizzata che permette di scegliere lo stile di riferimento per la creazione del video.
"Il nostro obiettivo principale, con questo lavoro, è quello di consentire agli utenti inesperti di generare contenuti visivi in modo creativo e flessibile", si legge nel documento pubblicato dai ricercatori che hanno realizzato Lumiere. Al momento non sono ancora disponibili modelli da testare.
I rischi delle nuove IA generative
Nel documento di Google, il team ha anche sottolineato: “C’è il rischio di un uso improprio per la creazione di contenuti falsi o dannosi con la nostra tecnologia, e riteniamo che sia fondamentale sviluppare e applicare strumenti per rilevare pregiudizi e casi d’uso dannosi per garantire un uso sicuro ed equo”.
L'intelligenza artificiale generativa nell'ultimo anno è stata infatti utilizzata per creare disinformazione e porno deepfake, ed è diventato sempre più difficile distinguere la realtà. In un'intervista al Daily Beast, l'esperta di disinformazione e ricercatrice di Harvard Joan Donavan ha spiegato che "purtroppo questi strumenti per creare immagini realistiche sono molto utili per ingannare il pubblico. Stiamo assistendo a una nuova forma di disinformazione preventiva, dove le voci vengono trasformate in realtà attraverso la creazione di media che coprono eventi che non sono mai accaduti".