Ricercatrice al lavoro in un laboratorio di scienze della vita
Foto: Unsplash

LifeSciBench, il nuovo benchmark di OpenAI che mette alla prova l’AI nelle scienze della vita

OpenAI ha presentato LifeSciBench, un nuovo benchmark pensato per misurare quanto i modelli di intelligenza artificiale siano davvero utili nella ricerca nelle scienze della vita. Non si tratta dell’ennesimo test a risposta multipla sulla biologia, ma di una raccolta di compiti scritti e revisionati da scienziati con dottorato ed esperienza diretta nello sviluppo di farmaci. L’idea di fondo è semplice e ambiziosa allo stesso tempo: capire se un’AI può comportarsi come un collaboratore competente in laboratorio, e non solo come un’enciclopedia che recita nozioni. In un momento in cui i sistemi agentici stanno entrando nei flussi di lavoro scientifici, sapere cosa questi modelli sanno e non sanno fare diventa una questione concreta, con ricadute sulla velocità con cui scopriremo nuove terapie.

Cos’è LifeSciBench e cosa misura davvero

LifeSciBench è un benchmark composto da 750 compiti originali, scritti da 173 scienziati provenienti da discipline diverse delle scienze della vita. Ogni contributore aveva una formazione di livello dottorale e una storia professionale nel settore biotecnologico o farmaceutico, quindi i problemi proposti non sono esercizi da manuale ma situazioni che assomigliano al lavoro quotidiano di chi fa ricerca applicata. La differenza rispetto alle valutazioni tradizionali è netta. Molti test esistenti si concentrano su domini ristretti o su abilità isolate, con domande dal formato rigido e risposte di riferimento pulite. Sono utili, ma non dicono se un modello sa contribuire allo spettro più ampio del lavoro di ricerca, quello fatto di prove incomplete, risultati in conflitto e decisioni da prendere in condizioni di incertezza.

Il modo in cui ogni compito è strutturato racconta bene questa filosofia. Una task di LifeSciBench si presenta come una richiesta che uno scienziato potrebbe rivolgere a un collega esperto: un prompt scientifico, eventuale contesto o materiale allegato, e una risposta in formato libero. Non basta indovinare la conclusione giusta. Conta arrivarci con il livello di dettaglio, le giustificazioni, le cautele e la forma che un ricercatore si aspetterebbe. Per valutare tutto questo, ogni risposta viene confrontata con una griglia di criteri costruita su misura, che scompone la prestazione attesa in affermazioni scientifiche specifiche, calcoli, decisioni e motivazioni.

I numeri che danno la misura del lavoro

La scala dell’operazione aiuta a capire perché OpenAI parla di un benchmark difficile da saturare. Il dataset comprende 1.062 artefatti allegati, tra figure, PDF, tabelle, file di sequenze e strutture chimiche, e nel 53% dei casi il modello deve interpretare o sintetizzare informazioni da almeno uno di questi materiali. Non è un dettaglio: significa che la macchina deve leggere un grafico complesso o un file di sequenza e integrarlo nel ragionamento, esattamente come farebbe una persona. Inoltre il 79% dei compiti richiede più passaggi di ragionamento, con una media di quattro passaggi per task. Le griglie di valutazione, complessivamente, contano 19.020 criteri, in media 25 per compito, un livello di granularità che permette di assegnare credito parziale a una risposta corretta nel ragionamento ma incompleta nel risultato.

Anche la fase di controllo qualità è stata robusta. Ogni task poteva passare attraverso quanti cicli di revisione fossero necessari, con una media di sei revisioni automatiche e almeno due round di revisione esperta, accettando solo i compiti con un accordo di almeno il 90% tra i revisori del dominio. La validazione finale ha coinvolto 453 revisori indipendenti che non avevano scritto le task: il 97% con dottorato, in media dodici anni di esperienza e quattordici pubblicazioni alle spalle. Su tutte le dimensioni misurate, dall’aderenza al lavoro reale alla solidità scientifica, l’accordo ha superato il 96%.

Sette flussi di lavoro, sette domini

Per costruire la struttura del benchmark, il team ha chiesto agli scienziati quali attività svolgono più spesso, poi ha raggruppato le risposte in sette categorie ricorrenti: gestione delle prove, analisi, progettazione e ottimizzazione, ragionamento scientifico, validazione e operazioni, traslazione e comunicazione scientifica. È una mappa interessante perché ricalca il ciclo reale della ricerca, dall’interpretazione dei dati grezzi fino alla comunicazione dei risultati a un pubblico di pari. Se vuoi un quadro più ampio di come l’AI stia entrando nei laboratori, abbiamo raccontato in dettaglio il tema in un approfondimento sull’AI e la ricerca scientifica.

Perché un benchmark del genere serve proprio adesso

La motivazione che OpenAI mette al centro è il salto di capacità dei sistemi agentici, cioè modelli che non si limitano a rispondere ma pianificano, usano strumenti e portano a termine sequenze di azioni. Quando un’AI inizia a proporre esperimenti, valutare il rischio traslazionale di un candidato farmaco o decidere il passo successivo di un programma, l’asticella della valutazione deve alzarsi. Sapere che un modello risponde correttamente a una domanda di biologia non basta più, perché il valore reale sta nella capacità di reggere la complessità, gestire l’incertezza e produrre indicazioni operative affidabili.

Questo spiega anche perché i risultati assoluti restino modesti. LifeSciBench non è stato costruito per essere superato facilmente: è uno strumento diagnostico che mostra dove la frontiera dell’AI è ancora lontana dal lavoro scientifico vero. Vale la pena ricordare che progressi spettacolari in ambiti adiacenti esistono già, come la previsione delle strutture proteiche raccontata nel nostro pezzo su AlphaFold 3 di Google DeepMind, oppure l’automazione di una reazione chimica complessa descritta nell’articolo sul chimico AI quasi autonomo. LifeSciBench prova a misurare in modo sistematico ciò che quegli esempi mostrano in modo puntuale.

Cosa dicono i primi risultati

Per riportare le prestazioni, OpenAI usa due metriche complementari. La prima è il pass rate, cioè la percentuale di compiti in cui un modello supera la soglia di successo fissata al 70%. La seconda è lo score, la ricompensa media calcolata sulla griglia, che premia anche i criteri soddisfatti quando l’intero compito non è risolto. La distinzione è sensata, perché una risposta scientifica può essere parzialmente corretta e comunque utile.

Confrontando due generazioni di modelli, il sistema più recente chiamato GPT-Rosalind migliora il pass rate complessivo dal 25,7% del precedente GPT-5.5 al 36,1%. I progressi più marcati arrivano nella comunicazione scientifica, che sale dal 56,3% al 71,1%, e nella traslazione, il passaggio dalla ricerca di base all’applicazione clinica, che cresce dal 36,8% al 57,7%. Sui compiti che richiedono un output realmente utile a un esperto, il punteggio passa dal 29,1% al 44,7%, e un miglioramento simile si vede nella gestione dell’incertezza e delle cautele. In altre parole, i modelli diventano più bravi proprio quando il problema ha un confine di evidenza chiaro e chiede un giudizio scientifico ben strutturato.

Restano però aree dove la distanza è ancora ampia. Le attività di progettazione e ottimizzazione si fermano intorno al 30%, così come l’analisi. Il punto più critico riguarda gli artefatti: quando un compito richiede di lavorare su figure, file di sequenze o documenti allegati, il pass rate cala dal 45,1% dei task solo testuali al 28,1%. Anche le risposte che richiedono valori numerici precisi o sequenze esatte mostrano percentuali basse, segno che la precisione operativa, quella che serve davvero per disegnare un esperimento, è ancora un terreno difficile. Tutto questo poggia sulle stesse architetture che abbiamo spiegato nella guida su come funzionano i large language model, ed è utile tenerlo presente per non sopravvalutare i risultati.

Cosa cambia per la ricerca e per chi guarda da fuori

Se lavori nel settore o semplicemente segui l’evoluzione dell’AI, il messaggio è duplice. Da un lato, i modelli di frontiera stanno diventando collaboratori credibili nelle attività di sintesi, interpretazione e comunicazione, quelle dove un buon ragionamento testuale fa la differenza. Dall’altro, restano fragili dove la scienza chiede precisione assoluta, lettura di dati complessi e decisioni progettuali. Per chi sviluppa prodotti basati sull’AI, questo è un invito a misurare le capacità reali invece di affidarsi alle dimostrazioni più appariscenti.

OpenAI stessa avverte che un buon risultato su LifeSciBench va letto come capacità a livello di singolo compito, non come prova di impatto sulla scoperta scientifica. La ricerca reale è iterativa, fatta di ipotesi riviste, nuovi dati e tempi lunghi, e il prossimo passo annunciato è collegare le prestazioni del benchmark a studi sul campo, dentro flussi di lavoro veri. È una posizione prudente che fa bene a tutto il settore, perché distingue la promessa dalla realtà e tiene alta l’attenzione sulla validazione.

Conclusioni

LifeSciBench è importante non perché qualcuno lo abbia vinto, ma perché alza la qualità della domanda che poniamo all’intelligenza artificiale. Misurare l’utilità reale in un contesto complesso come la ricerca biomedica è più difficile che contare risposte giuste, e proprio per questo è più onesto. I numeri raccontano modelli in rapido miglioramento sulla comunicazione e sul ragionamento, ma ancora indietro sulla precisione operativa e sull’uso dei dati. È un buon promemoria per restare curiosi e critici allo stesso tempo. Se vuoi continuare ad approfondire come l’AI sta cambiando laboratori, farmaci e metodo scientifico, ti consiglio di esplorare gli altri articoli della sezione e di tornare a trovarci: aggiorniamo spesso i contenuti man mano che escono nuovi studi e benchmark.