Nasce Minerva, l’intelligenza artificiale italiana: “L’abbiamo nutrita con 500 miliardi di parole”
Made in Italy non è solo automobili di lusso e alta moda, ma anche tecnologia e intelligenza artificiale. O almeno, vorrebbe esserlo. Come nel caso di Minerva, la famiglia di algoritmi sviluppati dal Sapienza Natural Language Processing, il gruppo di ricerca dell’università romana che si occupa proprio di comprensione dei linguaggi naturali.
Tre modelli (da 350 milioni, 1 miliardo e 3 miliardi di parametri) che sono stati addestrati su 500 miliardi di parole, “l’equivalente di 5 milioni di romanzi”, come si legge nel comunicato ufficiale. Rilasciata per adesso solo in ambito di ricerca, a breve Minerva sarà presentata in open source al pubblico, e quindi pronta per essere utilizzata da tutti.
In un’epoca in cui l’annuncio di nuovi modelli è sempre dietro l’angolo (per esempio Llama 3, annunciato da Meta, oppure VASA-1 creato da Microsoft), l’arrivo di Minerva potrebbe passare in sordina. Ma dietro il nome mitologico c’è di più. Innanzitutto perché è addestrata direttamente in italiano e non passa da traduzioni dall’inglese o da altre lingue. Poi, soprattutto, perché le fonti usate per l’addestramento sono aperte.
“L’insieme delle fonti usate da altri modelli non è noto. Spesso parlano di progetti “open source”, ma non esiste un sito che elenca le fonti per ognuno di questi modelli”, racconta a Fanpage.it Roberto Navigli, professore ordinario di Ingegneria Informatica e a capo del centro di ricerca Sapienza NPL.
Professore Navigli, cos'è Minerva?
È il primo modello linguistico italiano addestrato da zero usando testi ad accesso aperto. Si tratta quindi di un’architettura di rete neurale fondata sull’apprendimento profondo, che mira ad apprendere il linguaggio naturale. Funziona così: prende in input un testo e produce la parola che con alte probabilità seguirebbe dal testo fornito in input. Per capire meglio come funziona, è necessario fare una distinzione tra modelli cosiddetti fondazionali, come è appunto Minerva, e quelli conversazionali, come Chat-GPT.
Qual è la differenza tra questi modelli?
Quelli conversazionali sono modelli linguistici che mirano all’interazione in una conversazione, quindi devono saper rispondere adeguatamente a domande, istruzioni e comandi. Sono una sorta di evoluzione dei modelli linguistici di base. Di fatto è necessario prima creare questi ultimi e poi, tramite un processo di adattamento alle istruzioni (“instruction tuning”, in inglese), renderli in grado di svolgere diversi compiti che dimostrano la comprensione del linguaggio naturale, come la traduzione automatica, i riassunti automatici o la risposta a domande fattuali.
Un modello fondazionale come Minerva invece come funziona?
Il modello fondazionale si limita alla produzione di un linguaggio scorrevole, senza dover necessariamente rispondere alle richieste di un utente. Per esempio scrivo “Roberto è…” e chiedo al modello di completare questa stringa di testo. Il modello potrebbe completare il testo con “…un mio amico” o “…un professore” o anche “una persona”. Difficilmente risponderebbe producendo sequenze improbabili, come “una macchina” o “una strada”, per non parlare di risposte sgrammaticate e “primitive” come “un persona della università”, per esprimere “un professore”.
Quindi funziona come la barra di ricerche su Google?
Sì, ma in realtà con criteri diversi. Per esempio, la barra di ricerca di Google si basa sulle ricerche degli utenti. Forse l’esempio più calzante è l’autocompletamento nelle tastiere dei cellulari, che però si basa sulla frequenza di occorrenza all’interno di testi. In effetti i modelli linguistici in passato funzionavano esattamente così, basandosi sulle statistiche di occorrenza nei testi di addestramento. Per esempio vado a cercare “Il caffè è una…” all’interno dei testi che utilizzo per l’addestramento.
E qual era il problema?
Il problema è che non posso aspettarmi di trovare tutte le sequenze possibili di parole ed è proprio questo uno dei problemi superati dai modelli di deep learning, cioè ad apprendimento profondo. In qualche modo possiamo dire che approssimano la comprensione di una sequenza di parole senza aver visto in precedenza quella stessa sequenza, proprio come fanno gli esseri umani.
Nei mesi passati sono stati rilasciati diversi modelli di intelligenza artificiale, anche potenti. Perché crearne uno nuovo e non concentrarsi sull’applicazione di uno esistente?
Innanzitutto perché creare il know-how in Italia per saper addestrare modelli di queste dimensioni e di questa complessità è cruciale per il Paese. In secondo luogo, perché una volta creato il know-how, si può fare ricerca oltre alla frontiera attuale della conoscenza. Per fare un paragone con il settore automobilistico, se non so costruire un veicolo simile a quello della concorrenza, allora non potrò creare l’automobile di prossima generazione.
Quali sono i vantaggi quindi?
Grazie alla ricerca potremo lavorare ad alcuni problemi noti dei modelli attuali, per esempio quello delle cosiddette allucinazioni e dell’affidabilità dei modelli nel saper giustificare le proprie scelte nella generazione dei testi. Infine, anche in virtù dell’AI Act e del disegno di legge del governo sull’IA, dobbiamo sapere quali fonti utilizziamo per addestrare i modelli, informazione oggi mancante per molti modelli cosiddetti “open source”.
Perché è importante?
Perché altrimenti rischiamo di usare queste scatole nere violando leggi, normative o magari i diritti del cittadino. Stiamo parlando di così tanti dati, oltre 500 miliardi di parole nel caso di Minerva, che nessun essere umano può pensare di leggere questi contenuti uno alla volta. Conoscere le fonti e poterne disporre ci permette di governare il processo ed effettuare analisi importanti, anche aggregate, così come adattare e migliorare il modello negli addestramenti futuri.
Quali sono le fonti che avete dato in pasto ai modelli?
I dati che abbiamo utilizzato per questi primi tre modelli sono una porzione significativa delle pagine in italiano disponibili sul web. Questi dati sono ad accesso aperto e sono analoghi a quelli utilizzati in altri modelli per altre lingue. Utilizzare il web è fondamentale. Alcuni hanno parlato di rilasciare un modello solo con dati liberi da copyright. Però questa cosa è sostanzialmente impossibile.
Perché?
Il problema principale è che i modelli linguistici sono affamati di dati: quindi se voglio arrivare a quelle dimensioni devo necessariamente ricorrere al web. E il web ha contenuti di ogni genere. Essere in grado di filtrare solo contenuti totalmente aperti è sostanzialmente impossibile, anche perché in molti casi il copyright non viene dichiarato esplicitamente Attualmente tutti i modelli, nessuno escluso, utilizza il web come fonte primaria per l’addestramento.
Perché è così fondamentale addestrare un'intelligenza artificiale in italiano?
È la differenza tra pre-addestramento, che utilizziamo in Minerva, e fine tuning, come invece fatto finora in Italia. Il fine tuning, cioè l’adattamento di un modello straniero all’italiano, tende a preservare o assorbire la cultura della lingua di partenza. Quindi se parto da un modello addestrato in lingua inglese e poi lo aggiusto e lo adatto in italiano, la cultura assorbita dalla lingua inglese impregnerà anche la parte italiana. Invece, se lo addestro in italiano da zero, questo sarà “nativo” della cultura italiana.
E come si esprime la cultura italiana in questo caso?
Si esprime appunto attraverso il linguaggio. Se io prendo due testi su uno stesso tema, un testo scritto in italiano e uno scritto in inglese e tradotto in italiano da un professionista, questi due testi non avranno la stessa radice culturale. Innanzitutto perché svilupperanno il tema in modo differente. Per esempio, uno si focalizzerà sulla visione dei politici italiani, l’altro su quella dei politici americani. Oppure su visioni culturalmente differenti relativamente a tematiche sensibili.
Per esempio?
Prendiamo l‘aborto. Ogni Paese ha una sua sensibilità che è il risultato di un processo sociale, storico, antropologico. Questa sensibilità emerge dai testi che si sono stratificati sul web. Se considero quelli scritti in italiano sul web, questi rifletteranno la percezione predominante, ma anche le discussioni e le polemiche in corso nella nostra cultura relativamente a questo tema. Lo stesso vale per temi meno sensibili ma comunque molto sentiti come il cibo, di cui si parla molto in Italia e spesso con cognizione di causa rispetto ad altri Paesi dove i parlanti potrebbero non essere particolarmente interessati a distinzioni come quelle tra il Parmigiano Reggiano e il Grana Padano.
Oppure come si cucina la carbonara…
O come si prepara la carbonara, esatto. I testi sono intrisi della cultura di un popolo, di un Paese ma anche di una regione. Questa cultura emerge implicitamente dal linguaggio e spesso può anche cambiare nel tempo. Il web italiano di oggi esprime tendenzialmente il sentire comune della nostra cultura. Però non bisogna dimenticarsi di una cosa importante.
E cioè?
Nonostante tutto, non si può dire che il web sia l'espressione dell’intera popolazione italiana perché non tutti hanno accesso al web o hanno tempo e modo di scrivere testi su internet. Quindi c'è comunque un bias, anzi, ce ne sono due. Uno è quello intrinseco della cultura, che è espresso attraverso il linguaggio, l’altro è relativo a chi può effettivamente scrivere quei testi. Per esempio, gli studi ci dicono che Wikipedia è stata scritta principalmente da maschi, bianchi, giovani o pensionati, che vivono in Paesi occidentali.
Avete dichiarato di voler definire dei benchmark, cioè dei dataset di valutazione sul vostro modello. Ma come si fa a fissare dei parametri oggettivi per qualcosa che oggettivo non lo è come la cultura italiana?
Bisogna di nuovo distinguere il modello linguistico di base dalla capacità di conversazione del modello. È molto più semplice valutare la qualità della conversazione, ovvero se il modello risponde bene alle domande o alle istruzioni sottoposte: posso creare dei benchmark contenenti domande come per esempio “qual è la capitale d'Italia” o “chi è il Presidente del Consiglio” e la risposta, scelta tra un insieme di opzioni, è sostanzialmente univoca. Più sfidante invece è stabilire direttamente se il testo che ha generato un modello è della qualità che desidero.
Come faccio a stabilire un “livello di qualità”? A oggi ci si basa sull’aderenza del modello ai testi di addestramento, ma certamente rimane un tema aperto di ricerca, un’altra ragione per lavorare sui modelli linguistici di prossima generazione, come stiamo facendo con il mio gruppo in Sapienza. E qui vorrei ringraziare tutti i giovani ricercatori coinvolti nel progetto, Edoardo Barba, Simone Conia, Pere-Lluis Huguet Cabot, Luca Moroni e Riccardo Orlando.