Abbiamo finito i dati umani per addestrare l’IA: “I sistemi così rischiano di collassare”
I modelli di intelligenza artificiale hanno raschiato il web per raccogliere tutti i dati "umani" possibili. Ora sono finiti. L'ultimo allarme arriva da Elon Musk, ma non è il primo. Da alcuni mesi infatti ci si domanda come verranno nutriti i modelli. Finora sono stati dati in pasto all'IA immagini, testi, video, così i modelli hanno imparato a riconoscere gli schemi e a imitare il linguaggio umano. "La somma cumulativa della conoscenza umana però è stata esaurita nell'addestramento all'IA", ha spiegato Musk durante un'intervista trasmessa in diretta su X.
"I dati sono finiti ufficialmente nel 2024", e questo è un problema. "L'unico modo" secondo Musk, per addestrare i nuovi modelli è utilizzare i dati sintetici creati dall'intelligenza artificiale, "scriveranno una specie di saggio o elaboreranno una tesi e poi si valuteranno da soli attraverso questo processo di auto-apprendimento". Eppure questo processo potrebbe danneggiare modelli, rendendoli progressivamente meno performanti e più suscettibili alle allucinazioni dell'IA.
Perché i dati sintetici sono un problema per i modelli IA
In parte sta già succedendo, Meta ha utilizzato anche dati sintetici per addestrare il suo modello di intelligenza artificiale Llama, lo stesso Microsoft per Phi.4, ma anche Google e OpenAI. Eppure l'addestramento su dati sintetici potrebbe diventare un problema. Come ha spiegato Andrew Duncan, direttore dell'AI foudation presso l'Alan Turing Institute del Regno Unito "la dipendenza dai dati creati dall'intelligenza artificiale rischia di far collassare i modelli, deteriorando la qualità degli output."
I sistemi rischiano di sputare fuori risultati distorti, banali, ripetitivi "quando si inizia ad alimentare un modello con materiale sintetico, si cominciano a ottenere rendimenti decrescenti", ha spiegato Duncan. Era però inevitabile, se anche i dati "umani" non fossero finiti, in un modo o nell'altro i dati sintetici sarebbero finiti nella pancia dei modelli. E infatti da quando sono stati lanciati sono aumentati esponenzialmente i contenuti generati dall'IA, pubblicati sui social, sui motori di ricerca, inevitabilmente quindi questi dati sintetici, confusi in mezzo a contenuti reali, sarebbero stati ingeriti prima o poi dalle macchine.
L'ipotesi di Ilya Sutskever
L'allarme era stato già lanciato a dicembre da Ilya Sutskever, tra i fondatori di OpenAI ed ex direttore della ricerca. "Mentre le capacità di calcolo di ChatGPT continuano a svilupparsi e a diventare sempre più potenti, i dati che sono stati utilizzati finora per il suo addestramento stanno ormai finendo. I dati non aumentano, perché abbiamo solo un internet". Secondo Sutskever ci sono diversi scenari possibili, non è detto che i modelli siano destinati a un progressivo deterioramento. Anzi.
I Large Language Model potrebbero, per esempio, adottare metodi di ragionamento più simili a quelli umani. Al momento gli LLM sono modelli matematici che si basano sulla statistica. Quindi, facendo un esempio, se si chiede al chatbot: "Chi è la prima persona a camminare sulla luna è stata…", lui risponderà "Neil Armstrong". Ovviamente non sa nulla sulla missione Apollo, ma analizza quali parole hanno più probabilità di comparire nella sequenza. Per capirci, ChatGPT potrebbe essere il pronipote del correttore automatico per i messaggi. Funziona come il sistema di testo predittivo sui nostri smartphone. Non solo, utilizzano anche le risposte degli utenti per migliorare le sul prestazioni, questo tipo di apprendimento RLHF permette al chatbot di seguire le indicazioni e generare risposte sempre più precise.
Ora i modelli si stanno evolvendo e potrebbero anche cambiare le modalità con cui vengono addestrati. Sutskever non ha dubbi, "ci attende un futuro di macchine superintelligenti che ragioneranno sempre più imitando il pensiero umano, con una comprensione sempre più profonda, fino a diventare consapevoli di se stessi."