AlphaFold 3: come l’AI di Google DeepMind sta rivoluzionando la biologia molecolare

Nel maggio 2024, Google DeepMind ha pubblicato su Nature un articolo che ha scosso la comunità scientifica mondiale: AlphaFold 3, il successore del già rivoluzionario AlphaFold 2, capace non solo di predire la struttura delle proteine ma di modellare le interazioni tra qualsiasi tipo di molecola biologica. DNA, RNA, proteine, ligandi, ioni metallici: AlphaFold 3 può prevedere come queste molecole interagiscono tra loro con una precisione che fino a pochi anni fa sembrava fantascientifica. La ricerca biologica non sarà mai più la stessa.

Il problema che AlphaFold ha risolto

Per capire la portata rivoluzionaria di AlphaFold, bisogna prima capire il problema che ha risolto. Le proteine sono le macchine molecolari della vita: enzimi che catalizzano reazioni chimiche, recettori che trasmettono segnali cellulari, anticorpi che difendono dall’infezione. La funzione di una proteina dipende dalla sua struttura tridimensionale, ovvero dal modo in cui la catena di aminoacidi si piega nello spazio.

Il “protein folding problem” — predire la struttura 3D di una proteina dalla sua sequenza di aminoacidi — era considerato uno dei problemi aperti più importanti della biologia da oltre 50 anni. Risolverlo sperimentalmente con tecniche come la cristallografia a raggi X o la cryo-EM richiede mesi di lavoro e decine di migliaia di euro per singola proteina. Nel 2020, AlphaFold 2 ha risolto questo problema con una precisione paragonabile ai metodi sperimentali, vincendo il Critical Assessment of protein Structure Prediction (CASP) con un punteggio medio di 92,4 su 100, lasciando gli altri competitor molto indietro.

AlphaFold 3: oltre le proteine

AlphaFold 2 era già straordinario, ma aveva un limite: prediveva solo la struttura delle proteine isolate. La biologia reale è molto più complessa: le proteine interagiscono con DNA, RNA, piccole molecole (farmaci, cofattori) e ioni metallici. Comprendere queste interazioni è fondamentale per scoprire nuovi farmaci e capire le malattie.

AlphaFold 3 supera questo limite introducendo un’architettura completamente nuova basata sui diffusion models — la stessa tecnologia alla base di DALL-E e Stable Diffusion per le immagini, applicata alla struttura molecolare. Invece di predire la posizione degli atomi direttamente, AlphaFold 3 “denoisa” progressivamente una struttura rumorosa fino a ottenere la conformazione corretta, un processo analogo a come i modelli di diffusione generano immagini partendo da rumore gaussiano.

Il risultato è un sistema capace di modellare qualsiasi complesso biomolecolare: proteine con DNA, proteine con RNA, proteine con piccole molecole (cruciale per la scoperta di farmaci), anticorpi con antigeni, enzimi con substrati. Nei benchmark su compiti di protein-ligand docking — predire come un farmaco si lega a una proteina target — AlphaFold 3 supera i migliori metodi esistenti del 50%.

L’impatto sulla scoperta di farmaci

La scoperta di nuovi farmaci è tradizionalmente un processo lentissimo e costosissimo: in media 12-15 anni e 2,6 miliardi di dollari per portare un nuovo medicinale dal laboratorio al mercato. Una delle fasi più critiche è il drug discovery: identificare molecole candidate che si legano specificamente alla proteina target coinvolta nella malattia, senza legarsi alle proteine sane dell’organismo.

AlphaFold 3 trasforma questo processo. Con la capacità di predire le interazioni proteina-ligando con alta precisione, i ricercatori possono ora effettuare virtual screening su milioni di molecole candidate in pochi giorni di calcolo computazionale, identificando quelle più promettenti prima ancora di sintetizzarle in laboratorio. Questo riduce drasticamente il numero di costosi esperimenti wet-lab necessari nelle fasi iniziali della ricerca.

Isomorphic Labs, una spin-off di DeepMind dedicata alla scoperta di farmaci con l’AI, sta già usando AlphaFold 3 in partnership con Eli Lilly e Novartis per accelerare programmi di ricerca su oncologia, malattie rare e malattie infettive. I risultati preliminari, ancora riservati, sono descritti dai partner come “estremamente promettenti”.

AlphaFold Database: 200 milioni di strutture disponibili

Forse ancora più impattante delle capacità tecniche di AlphaFold è la decisione di DeepMind di rendere il suo database pubblicamente disponibile. L’AlphaFold Protein Structure Database, sviluppato in partnership con l’European Bioinformatics Institute (EMBL-EBI), contiene oggi oltre 200 milioni di strutture proteiche predette, coprendo quasi tutti i proteomi di organismi importanti per la ricerca biomedica.

Prima di AlphaFold, il Protein Data Bank — il repository mondiale delle strutture proteiche determinate sperimentalmente — conteneva circa 180.000 strutture, accumulate in 50 anni di lavoro sperimentale. AlphaFold ha aumentato questa conoscenza di quasi mille volte in pochi anni. Il database è liberamente accessibile a tutti i ricercatori del mondo, democratizzando l’accesso a informazioni strutturali che prima richiedevano costosi esperimenti.

Le critiche e i limiti

Nonostante l’entusiasmo, AlphaFold 3 non è privo di critiche. La principale riguarda la disponibilità del modello: mentre AlphaFold 2 era completamente open source, con codice e pesi disponibili liberamente, AlphaFold 3 è accessibile solo tramite un server web con limitazioni sull’uso commerciale. Questa scelta ha suscitato forti critiche nella comunità scientifica, preoccupata per la concentrazione di strumenti così potenti nelle mani di un’unica azienda privata.

Dal punto di vista tecnico, AlphaFold 3 predice strutture statiche, mentre le proteine nella realtà sono dinamiche: si muovono, cambiano conformazione e rispondono all’ambiente. Predire la dinamica molecolare rimane una sfida aperta. Inoltre, come tutti i modelli AI, può fare errori in casi rari o strutturalmente inusuali, ed è importante che i ricercatori non si fidino ciecamente delle predizioni senza validazione sperimentale.

Il futuro: verso la biologia computazionale totale

AlphaFold 3 rappresenta un passo verso quella che alcuni ricercatori chiamano “biologia computazionale totale”: la capacità di simulare i processi biologici a livello molecolare con sufficiente precisione da sostituire, in molti casi, gli esperimenti fisici. I prossimi sviluppi attesi includono la modellazione delle modificazioni post-traduzionali delle proteine, la predizione delle interazioni proteina-membrana e, ambiziosa frontiera, la simulazione di vie metaboliche complete.

Il successo di AlphaFold dimostra che l’AI può risolvere problemi scientifici fondamentali che l’umanità non riusciva ad affrontare con metodi tradizionali. Come il deep learning ha rivoluzionato il riconoscimento visivo e il processamento del linguaggio naturale, la sua applicazione alla biologia molecolare potrebbe accelerare la scienza biomedica di un’intera generazione. Il confine tra informatica e biologia si sta dissolving, e AlphaFold ne è il simbolo più eloquente.