Un recente studio di Stanford presentato su Ars Technica mette in luce una svolta nell’incontro tra intelligenza artificiale generativa e biologia molecolare. Il nuovo sistema, chiamato Evo, è un modello linguistico genomico capace non solo di prevedere sequenze mancanti, ma di generare proteine funzionali del tutto inedite. Il cuore della novità consiste nell’applicare tecniche simili a quelle degli LLM (Large Language Model) all’ambito genomico, ampliando così il concetto di generative AI fino al DNA stesso.

Evo: un modello generativo applicato al genoma

Evo è stato addestrato su un’enorme collezione di genomi batterici, approfittando dell’organizzazione tipica di questi organismi in cui geni con funzioni correlate si trovano frequentemente in cluster e possono essere trascritti contemporaneamente in un unico mRNA. Questo assetto fornisce dati contestuali ideali per un modello linguistico che apprende il “linguaggio” del genoma e può predire la base successiva o generare nuovi segmenti. Il risultato è un sistema che connette pattern nucleotide-level con contesti su scala kilobase in modo simile a un LLM testuale.

Da completamento a creatività biologica

Il team di Stanford ha testato Evo con prompt composti da frammenti di geni noti.

In casi in cui veniva fornito il 30% o l’80% della sequenza, il modello è riuscito a ricostruire rispettivamente l’85% o l’intera parte mancante. Quando un gene veniva omesso da un cluster funzionale, Evo lo individuava e lo rigenerava con precisione. La creatività del sistema si manifesta quando è stato chiesto di creare nuovi geni correlati, ad esempio antitossine di batteri. Alcuni dei derivati non mostravano affinità significativa (circa il 25%) con antitossine note, e sembravano assemblati da numerose fonti diverse, dimostrando l’abilità di “promuovere” variabilità genetica utile.

Ancora più sorprendente, Evo ha prodotto proteine inibitorie di CRISPR completamente nuove e funzionali, alcune delle quali sfidavano perfino gli algoritmi di predizione strutturale automatica: un indicatore che il modello sta esplorando regioni remote del landscape proteico.

Scala e prospettive

I ricercatori hanno lanciato Evo su circa 1,7 milioni di geni batterici e virali, generando circa 120 miliardi di coppie di basi di nuovi DNA. Il potenziale applicativo è immenso: da nuove terapie antimicrobiche a enzimi utili in biotecnologia, passando per modelli sperimentali completamente inediti. Resta però da comprendere se approcci simili possano funzionare su genomi complessi, come quelli dei vertebrati, dove i geni non sono organizzati in cluster funzionali e le regole genomiche sono più sofisticate.

Contesto più ampio: i limiti della AI in biologia

L’entusiasmo attorno a Evo non deve far dimenticare che l’AI in biologia incontra spesso ostacoli. Uno studio pubblicato su Ars Technica ha mostrato come modelli fondazionali faticano a prevedere l’attività genica in risposta a stimoli cellulari complessi; in alcuni casi, non sono riusciti a superare metodi semplificati, mettendo in evidenza i limiti del deep learning nell’affrontare reti geniche e sinergie tra geni.

Inoltre, l’anno scorso Wired affermava che la sinergia tra AI e CRISPR promette di rivoluzionare la medicina, l’agricoltura e la lotta al cambiamento climatico, grazie all’accelerazione nello sviluppo di terapie e strumenti di editing genico, ma ammoniva anche sui rischi insiti in questa integrazione.

Implicazioni etiche

L’uso di modelli generativi su frammenti critici come antitossine e inibitori CRISPR solleva questioni di sicurezza biologica: se da una parte si aprono opportunità terapeutiche, dall’altra si pongono scenari potenziali per uso improprio o creazioni accidentali pericolose. Occorrono meccanismi di valutazione, certificazione e controllo rigorosi nel trasferimento in contesti applicativi reali.

Parallelamente, il successo di Evo conferma come il DNA possa essere interpretato e manipolato come un linguaggio — una rivoluzione concettuale che ridefinisce rapporto tra informatica, biologia e IA. Tuttavia, per passare dalla potenza computazionale al valore applicativo servono validazione sperimentale, infrastrutture di screening e una cornice regolatoria chiara.