Salute 17 Gennaio 2024 14:25

L’Intelligenza artificiale di Google batte i medici in carne e ossa su anamnesi e diagnosi

Un sistema di intelligenza artificiale (AI) addestrato a condurre interviste mediche ha eguagliato, o addirittura superato, le prestazioni dei medici in carne e ossa nel conversare con pazienti simulati e nell'elencare possibili diagnosi sulla base della loro storia medica dei pazienti. Queste sono le conclusioni di uno studio pubblicato sul server di prestampa arXiv e riportato in un articolo riportato su Nature

di Valentina Arcovio

L’Intelligenza artificiale di Google batte i medici in carne e ossa su anamnesi e diagnosi

Un sistema di intelligenza artificiale (AI) addestrato a condurre interviste mediche ha eguagliato, o addirittura superato, le prestazioni dei medici in carne e ossa nel conversare con pazienti simulati e nell’elencare possibili diagnosi sulla base della loro storia medica dei pazienti. Il chatbot, che si basa su un modello linguistico di grandi dimensioni (LLM) sviluppato da Google, si è rivelato più accurato dei medici di base certificati nella diagnosi di malattie, come quelle respiratorie e cardiovascolari. Rispetto ai medici umani, è riuscito ad acquisire una quantità simile di informazioni durante i colloqui medici e si è classificato più in alto in termini di empatia. Queste sono le conclusioni di uno studio pubblicato sul server di prestampa arXiv e riportato in un articolo riportato su Nature.

Il primo sistema di intelligenza artificiale conversazionale progettato per l’anamnesi

“Per quanto ne sappiamo, questa è la prima volta che un sistema di intelligenza artificiale conversazionale è stato progettato in modo ottimale per il dialogo diagnostico e la raccolta dell’anamnesi clinica”, afferma Alan Karthikesalingam, ricercatore clinico presso Google Health a Londra e coautore dello studio. Chiamato Articulate Medical Intelligence Explorer (AMIE), il chatbot è ancora puramente sperimentale. Non è stato testato su persone con problemi di salute reali, ma solo su attori addestrati a interpretare persone con patologie. “Vogliamo che i risultati siano interpretati con cautela e umiltà”, afferma Karthikesalingam. Anche se il chatbot è lungi dall’essere utilizzato nell’assistenza clinica, gli autori sostengono che alla fine potrebbe svolgere un ruolo nella democratizzazione dell’assistenza sanitaria. Lo strumento potrebbe essere utile, ma non dovrebbe sostituire le interazioni con i medici, afferma Adam Rodman, medico di medicina interna presso la Harvard Medical School di Boston, Massachusetts. “La medicina è molto più che una semplice raccolta di informazioni: è tutta una questione di rapporti umani“, afferma.

L’intelligenza artificiale di Google è stata addestrata anche sulle proprie conversazioni

E’ ormai da diverso tempo che si stanno valutando gli LLM per la medicina per capire se possono emulare la capacità di un medico di acquisire l’anamnesi di una persona e utilizzarla per arrivare a una diagnosi. Gli studenti di medicina dedicano molto tempo alla formazione proprio a questo scopo. “È una delle competenze più importanti e difficili da inculcare nei medici”, spiega Rodman. Una delle sfide che gli sviluppatori hanno dovuto affrontare è la carenza di conversazioni mediche nel mondo reale disponibili da utilizzare come dati da usare per l’addestramento. Per affrontare questa sfida, i ricercatori hanno ideato un modo in cui il chatbot può allenarsi sulle proprie “conversazioni”. Gli studiosi hanno effettuato un primo ciclo di messa a punto del LLM di base con set di dati esistenti nel mondo reale, come cartelle cliniche elettroniche e conversazioni mediche trascritte. Per addestrare ulteriormente il modello, i ricercatori hanno spinto il LLM a svolgere il ruolo di una persona con una condizione specifica e quella di un medico empatico che mira a comprendere la storia della persona e a ideare potenziali diagnosi.

Il chatbot è stato più “bravo” dei medici umani

Il team di ricerca ha anche chiesto al modello di svolgere un ulteriore ruolo: quello di un critico che valuta l’interazione del medico con la persona in cura e fornisce feedback su come migliorare tale interazione. Questa critica viene utilizzata per formare ulteriormente il LLM e generare dialoghi migliori. Per testare il sistema, i ricercatori hanno arruolato 20 persone che erano state addestrate a impersonare i pazienti e hanno chiesto loro di effettuare consultazioni online basate su testo, sia con AMIE che con 20 medici certificati. Non è stato detto loro se stavano chattando con un essere umano o con un bot. Gli attori hanno simulato 149 scenari clinici e poi è stato loro chiesto di valutare la loro esperienza. Un pool di specialisti ha inoltre valutato la performance dell’AMIE e quella dei medici. Ebbene, dai risultati è emersi che il sistema di intelligenza artificiale ha eguagliato o superato l’accuratezza diagnostica dei medici in tutte e sei le specialità mediche considerate.

Un modelli linguistico di grandi dimensioni riesce a comporre risposte lunghe rapidamente

Il bot ha sovraperformato i medici in 24 dei 26 criteri di qualità della conversazione, tra cui la cortesia, la spiegazione della condizione e del trattamento, l’essere onesto e l’esprimere cura e impegno. “Questo non significa in alcun modo che un modello linguistico sia migliore dei medici nel raccogliere la storia clinica”, afferma Karthikesalingam. Secondo lo scienziato, che i medici di base coinvolti nello studio probabilmente non erano abituati a interagire con i pazienti tramite una chat testuale e questo potrebbe aver influito sulle loro prestazioni. Al contrario, un LLM ha il vantaggio di essere in grado di comporre rapidamente risposte lunghe e ben strutturate, permettendogli di essere costantemente premuroso senza stancarsi.

Irrisolte ancora le questioni etiche e i problemi di privacy degli utenti

Un importante passo successivo per la ricerca, secondo i ricercatori, è condurre studi più dettagliati per valutare potenziali pregiudizi e garantire che il sistema sia equo tra le diverse popolazioni. Il team di Google sta anche iniziando a esaminare i requisiti etici per testare il sistema su esseri umani che hanno reali problemi di salute. Daniel Ting, uno scienziato clinico specializzato in intelligenza artificiale presso la Duke–NUS Medical School di Singapore, concorda sul fatto che sondare il sistema per individuare eventuali pregiudizi è essenziale per assicurarsi che l’algoritmo non penalizzi i gruppi razziali che non sono ben rappresentati nei set di dati di addestramento. Anche la privacy degli utenti di Chatbot è un aspetto importante da considerare, afferma Ting. “Per molte di queste piattaforme commerciali di grandi modelli linguistici non siamo ancora sicuri di dove vengano archiviati i dati e di come vengano analizzati in questo momento”, conclude.

Iscriviti alla Newsletter di Sanità Informazione per rimanere sempre aggiornato

Alimentazione, la dieta africana ‘spegne’ l’infiammazione

Allo studio hanno partecipato 77 uomini sani della Tanzania, alcuni sono passati a una dieta occidentale per due settimane, altri ad una africana tradizionale

di Isabella Faggiano

Prevenzione

Contro le patologie respiratorie la vaccinazione è la via maestra

La vaccinazione rappresenta la strada d’elezione per prevenire e controllare le patologie virali. Le Raccomandazioni di quattro società scientifiche sulla prevenzione delle patologie resp...

di Redazione

Advocacy e Associazioni

Tumore al seno: tossicità finanziaria per il 38% delle donne, 70% affronta spese extra per le cure

Presentati a Roma i risultati del sondaggio su 585 pazienti realizzato da ANDOS e C.R.E.A. Sanità, per indagare gli effetti collaterali della malattia in termini umani, organizzativi, economici...

di Valentina Arcovio