Per molte famiglie che convivono con una malattia rara, la diagnosi è un traguardo che arriva dopo anni di esami, visite e attese, quando arriva. Anche con il sequenziamento del genoma, circa metà dei pazienti resta senza una spiegazione genetica chiara. Il 18 giugno 2026 è stato pubblicato sulla rivista NEJM AI uno studio che mostra come l’intelligenza artificiale possa dare una mano proprio qui, nei casi più ostici. Ricercatori del Boston Children’s Hospital, dell’Università di Harvard e di OpenAI hanno usato un modello di ragionamento per rianalizzare 376 casi pediatrici rimasti irrisolti, riuscendo a far emergere indizi che hanno poi portato a 18 nuove diagnosi confermate. È un risultato che va capito nei dettagli, perché racconta tanto del potenziale dell’AI in medicina quanto dei suoi limiti e delle cautele necessarie.
Cosa hanno scoperto i ricercatori
Il punto di partenza è un’idea controintuitiva, un test genetico inconcludente non è una sentenza definitiva. I dati di un paziente, le descrizioni dei sintomi, i risultati degli esami e la storia familiare, spesso sono sparsi in archivi che usano formati e vocabolari diversi, e collegarli è difficile persino per gli specialisti. In più, capita che il genoma di un bambino venga sequenziato prima che un certo gene o una sua variante siano stati associati a una malattia. Man mano che la conoscenza scientifica avanza, gli stessi dati possono rivelare risposte che prima erano impossibili da trovare. La rianalisi periodica dei casi irrisolti diventa così non solo un problema scientifico, ma anche di manutenzione, perché il sapere cambia di continuo mentre il genoma del paziente resta lo stesso.
In questo studio i ricercatori hanno usato il modello di ragionamento o3 Deep Research di OpenAI come un livello di analisi capace di collegare i dati clinici, lo schema di ereditarietà, le prove sulle varianti genetiche e la letteratura scientifica, restituendo non una semplice lista di geni ma una spiegazione argomentata che un esperto umano potesse esaminare. Su 376 casi già analizzati in precedenza e rimasti senza soluzione, il modello ha fatto emergere ipotesi documentate. Dopo la revisione degli esperti, ulteriori test e la conferma clinica, i medici hanno stabilito una diagnosi in 18 casi, pari a un guadagno diagnostico aggiuntivo del 4,8 per cento rispetto al lavoro già svolto dagli specialisti.
Come ha funzionato il flusso di lavoro
Il metodo merita attenzione, perché è qui che si gioca l’affidabilità. Per ogni caso il gruppo ha preparato un pacchetto di dati anonimizzati che descriveva il quadro clinico con termini standardizzati, eventuali note dei medici, informazioni come età e sesso, e una tabella filtrata delle varianti genetiche. Quella tabella indicava per ciascuna variante la rarità, l’effetto previsto sulla proteina codificata, la classificazione presente nei database pubblici e la qualità del segnale tra i familiari disponibili. Nella maggior parte dei casi erano presenti i dati del bambino e di entrambi i genitori biologici, un elemento prezioso per capire come una variante viene ereditata.
Al modello è stato chiesto di proporre la spiegazione molecolare più plausibile e di mostrare il ragionamento. I ricercatori hanno poi valutato gli esiti con lo stesso schema di criteri che i laboratori clinici usano per classificare le varianti genetiche. Ogni candidato è stato esaminato da almeno due persone, i disaccordi sono stati risolti per consenso, e un output del modello non è mai stato trattato come una diagnosi. Una variante diventava diagnosi solo dopo essere stata classificata come patogena o probabilmente patogena, confermata da un laboratorio certificato e riportata alla famiglia. Prima di affrontare i casi irrisolti, il sistema era stato messo alla prova su casi con diagnosi già nota, e aveva ritrovato il gene e la variante corretti in larga parte di essi, un controllo che ha aiutato a mettere a punto il metodo e a capire dove la revisione umana restava indispensabile. Sotto il cofano, o3 è un modello costruito sulla stessa architettura di base che alimenta gli assistenti AI moderni, i Transformer, applicata qui al ragionamento su dati biomedici.
I numeri dei risultati
Il guadagno complessivo, il 4,8 per cento, va letto tenendo conto delle quattro coorti di pazienti coinvolte, molto diverse tra loro. Nei casi con disturbi del neurosviluppo, 100 in tutto, sono emerse 10 diagnosi, pari al 10 per cento. Tra le 61 persone con malattie neuromuscolari rare, le diagnosi sono state 4, circa il 6,6 per cento. Nei 200 casi di morte improvvisa inattesa in età pediatrica il risultato è stato più contenuto, 2 diagnosi pari all’1 per cento. Infine, nel piccolo gruppo di 15 casi di psicosi a esordio precoce, sono emerse 2 diagnosi, una percentuale alta ma da prendere con cautela proprio per la ridotta numerosità del campione.
Sono cifre modeste solo in apparenza. Tutti questi casi erano già stati esaminati più volte, spesso da team multidisciplinari e da diverse piattaforme commerciali o istituzionali, e nonostante ciò erano rimasti senza risposta. Far emergere una spiegazione in quasi cinque casi su cento, in una popolazione così difficile, è un risultato significativo. Va aggiunto che 7 delle 18 diagnosi erano in realtà riscoperte, cioè spiegazioni stabilite altrove ma assenti dalla documentazione che il gruppo aveva sotto mano, il che evidenzia bene quanto sia difficile mettere insieme le informazioni sparse tra fonti diverse. Proprio questa capacità di sintesi è uno dei contributi più interessanti che l’AI può offrire alla medicina, un tema che tocca da vicino tutto il settore della sanità e dell’imaging medico.
Storie e ipotesi oltre la statistica
Dietro i numeri ci sono persone. Una delle diagnosi riguarda una ragazza la cui malattia muscolare era rimasta senza nome per quasi vent’anni, da quando, ancora bambina, aveva cominciato a perdere forza durante lo sport. Il gruppo ha collegato la sua condizione a una variante in un gene specifico e ha individuato una forma rara di miopatia, dando finalmente una risposta a una famiglia che la attendeva da quasi due decenni. In un altro caso, riguardante una psicosi a esordio precoce, il modello ha ipotizzato una alterazione strutturale del genoma che non era nemmeno indicata nei dati di partenza, collegando una serie di segnali di scarsa qualità su un cromosoma ai sintomi cardiaci, immunitari e neurologici del paziente, e suggerendo una specifica sindrome poi confermata da un nuovo sequenziamento.
Il sistema ha anche prodotto un’ipotesi di meccanismo del tutto nuova per una condizione della pelle, mettendo in relazione una particolare variante con alterazioni della segnalazione cellulare che potrebbero ridurre la produzione di pigmento. È un’ipotesi che richiede ancora validazione sperimentale, ma mostra bene un ruolo potente dell’AI, tradurre indizi sparsi tra biologia strutturale, immunologia e genetica clinica in domande concrete e verificabili. Non si tratta quindi solo di chiudere casi aperti, ma talvolta di aprire nuove piste di ricerca.
I limiti e cosa lo studio non dice
Qui serve la massima chiarezza, perché è facile fraintendere notizie come questa. Il modello non ha diagnosticato nessun paziente e non ha preso alcuna decisione clinica. Ha prodotto ipotesi corredate di prove, che specialisti umani hanno poi valutato, testato e confermato con i normali processi di laboratorio. Gli autori scrivono esplicitamente che questo lavoro non è una prova che pazienti, medici o clienti debbano usare i modelli di OpenAI per diagnosticare malattie o prendere decisioni mediche. È una ricerca, condotta in un ambiente controllato e su dati anonimizzati, non un prodotto pronto per la cura.
Ci sono inoltre limiti metodologici precisi. Lo studio è retrospettivo, le coorti erano eterogenee e i revisori non erano all’oscuro dei punteggi di confidenza del modello. Non sono stati misurati il tempo risparmiato, i costi, lo sforzo dei medici o il carico dei falsi positivi, tutti aspetti che serviranno per capire l’utilità reale nella pratica. I modelli linguistici, va ricordato, possono interpretare male il contesto o produrre spiegazioni plausibili che non reggono a un esame più attento, ed è proprio per questo che ogni risultato è passato dal giudizio umano e dalla conferma clinica. L’AI ha allargato la ricerca e concentrato l’attenzione degli esperti, non ha deciso cosa comunicare alle famiglie. Sono cautele che valgono per qualunque applicazione dell’intelligenza artificiale alla salute, come ricordiamo spesso parlando di AI nella sanità.
Conclusioni
Lo studio pubblicato su NEJM AI è un esempio prudente e ben costruito di come l’intelligenza artificiale possa affiancare i medici nei casi più difficili, non sostituendoli ma aiutandoli a trovare indizi che il sapere in continua evoluzione rende finalmente leggibili. Il prossimo passo lo guideranno gli stessi ricercatori del Boston Children’s Hospital, con l’obiettivo dichiarato di costruire uno strumento accessibile e a basso costo che aiuti i team clinici ad analizzare i casi di malattia rara in modo più rapido e coerente. Per migliaia di famiglie, la promessa non è che l’AI prenda il posto del medico, ma che le domande oggi senza risposta non debbano restare tali per sempre. Puoi leggere lo studio e l’annuncio originale sul sito di OpenAI. Continua a seguire la nostra sezione dedicata alla sanità per orientarti, con spirito critico, tra le tante novità dell’AI in medicina.
Intelligenza Artificiale Tutto su AI e machine learning