Nasce Sora, la nuova AI generativa di OpenAI che trasforma i testi in video: ora è impressionante
Prima i generatori di testo, poi di immagini, ora i video. L'intelligenza artificiale ci ha abituato al potere della parola, ormai basta un prompt per generare mondi, e le Big Tech promettono tecnologie sempre più performanti. Tra queste c'è Sora, figlia di OpenAI. L'azienda dopo il lancio di ChatGPT è partita in rincorsa nella nuova corsa all'oro e vuole mantenere il primato, anche nell'ambito video. "Il nostro nuovo modello è in grado di generare video della durata massima di un minuto a partire da un testo, mantenendo la qualità visiva e l'aderenza alla richiesta dell'utente". Sora, come spiega OpenAI, integra le istruzioni date dall'utente nel prompt con le leggi delle fisica, creando così filmanti coerenti e realistici.
Abbiamo guardato i primi esperimenti generati dal software. C'è un dalmata che cammina sui balconi di Burano, un uomo che corre al contrario su un tapis roulant, una ragazza che passeggia per le strade di Tokyo. Funziona bene, ci sono dettagli che possono tradire la natura artificiale del video, come i volti deformati delle persone sullo sfondo, ma spariranno, è solo questione di tempo. Sora non è l'unica. Da un lato esiste un ricco sottobosco di software non particolarmente brillanti che creano video, dall'altro ci sono i prodotti di nuova generazione, per esempio Lumiere, la nuova IA di Google.
Cosa può fare e come funziona Sora
Sora è un modello stable diffusion che genera un video partendo da un testo. "Insegniamo all'intelligenza artificiale come comprendere e simulare il mondo fisico in movimento", si legge sul sito di OpenAI. "L'intelligenza artificiale è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo. Il modello ha una profonda comprensione del linguaggio, che gli consente di interpretare accuratamente le istruzioni". OpenAI non ha annunciato quando verrà rilasciato il suo nuovo modello, prima sarà necessario valutare i rischi del prodotto.
Esistono già in realtà "modelli multimodali"da testo a video, Sora promette di generare video più precisi e lunghi. Secondo Reece Hayden, analista senior presso la società di ricerche di mercato ABI Research, questi modelli di intelligenza artificiale potrebbero avere un grande impatto sui mercati dell’intrattenimento digitale creando nuovi contenuti personalizzati trasmessi in streaming.
Rischi e punti deboli del nuovo software di OpenAI
Sora è ancora un "work in progress", come si legge sul sito. Fatica per esempio a riconoscere la destra dalla sinistra, "può avere difficoltà con descrizioni precise di eventi che si verificano nel tempo, come seguire una specifica traiettoria della telecamera". La società ha spiegato che sta lavorando con un team di esperti per testare l'ultimo modello. Il gruppo, chiamato "red teamer" valuterà i rischi del prodotto, verranno anche consultati designer, registi, e artisti visivi per migliorare l'estetica del software.
"Il modello attuale presenta dei punti deboli. Potrebbe avere difficoltà a simulare accuratamente la fisica di una scena complessa e potrebbe non comprendere istanze specifiche di causa ed effetto. Ad esempio, una persona potrebbe dare un morso a un biscotto, ma in seguito potrebbe non lasciare il segno del morso sul biscotto". OpenAI ha poi aggiunto: "Stiamo anche creando strumenti per aiutare a rilevare contenuti fuorvianti" tra questi, etichette per segnalare un contenuto generato da Sora, e un "classificatore di testo che controllerà e rifiuterà le richieste di immissione di testo che violano le nostre politiche di utilizzo, come la violenza estrema, i contenuti sessuali, immagini che incitano all'odio, o somiglianza di celebrità o IP di altri".