L’IA può creare genomi da zero e predire l’impatto delle mutazioni, il ChatGPT della biologia si chiama EVO 2

Come ChatGPT, il famoso chatbot di intelligenza artificiale (IA) da poco disponibile anche su Whatsapp, EVO 2 è pronto a sbarcare nei laboratori di tutto il mondo, come sistema aperto (inclusi i parametri del modello, il codice di apprendimento) per accelerare l’esplorazione e la progettazione della complessità biologica. Sviluppato dai ricercatori dell’Arc Institute, della Stanford University e di NVIDIA, EVO 2 è un modello di intelligenza artificiale avanzato in grado di prevedere le variazioni genetiche e generare sequenze genomiche in tutti i domini della vita.
I test dimostrano che Evo 2 predice accuratamente gli effetti funzionali delle mutazioni nei genomi procariotici ed eucariotici e può anche riscrivere il genoma del mammut lanoso da sequenze genomiche grezze, senza un riferimento di apprendimento diretto, dimostrando la capacità di generalizzare la funzione dalla sola sequenza. Nello studio “Genome Modeling and Design Across All Domains of Life with Evo 2” disponibile in preprint su BioRxiv, i suoi sviluppatori spiegano nel dettaglio come questo modello di intelligenza artificiale, addestrato su 9,3 mila miliardi di coppie di basi del DNA, consenta previsioni e progettazione su scala genomica. Evo 2, precisa i team, può analizzare e generare fino a 1 milione di nucleotidi alla volta, riuscendo a valutare modelli e relazioni a lungo raggio all’interno delle sequenze di DNA.
Durante l’addestramento, EVO 2 ha dimostrato di poter prevedere la coppia di basi successiva di una sequenza, in modo simile a come i modelli linguistici prevedono la parola successiva in una frase. “Questo approccio consente a Evo 2 di identificare strutture genomiche complesse e di modellare accuratamente l’impatto funzionale delle variazioni genetiche in tutti i domini della vita” hanno affermato gli sviluppatori.
I risultati dei test hanno infatti evidenziato la capacità di EVO 2 di predire accuratamente gli effetti funzionali delle mutazioni nei genomi di procarioti ed eucarioti, senza la necessità di specificare l’attività dei geni. “Il modello ha dimostrato sensibilità alle mutazioni nei codoni di inizio, nei siti di splicing e nelle regioni genomiche conservate, con prestazioni in linea con i vincoli biologici noti”.
Riguardo la generazione di sequenza su scala genomica, EVO 2 ha dato prova di poter creare genomi mitocondriali completi, genomi batterici e sequenze su scala cromosomica di lievito. “Abbiamo deciso di rendere EVo 2 completamente aperto, inclusi parametri del modello, codice di training, codice di inferenza e dataset OpenGenome2, per accelerare l’esplorazione e la progettazione della complessità biologica – hanno aggiunto gli sviluppatori – . Rappresenta un significativo progresso nell’intelligenza artificiale genomica, combinando accuratezza predittiva con capacità generative su scala genomica”.