Salute 23 Settembre 2020 09:10

Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Una squadra di ricerca applica algoritmi di machine learning a oltre 30mila pubblicazioni. La scoperta? «Studi genetici, biomolecolari e test di laboratorio sono sottorappresentati»

di Tommaso Caldarelli
Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Dall’inizio della pandemia da Coronavirus la comunità medico scientifica ha pubblicato «decine di migliaia di studi». Lo riporta un paper pubblicato dall’autorevole Cell in pre-print, scritto da una squadra di ricerca internazionale con base a Washington DC: al di là di questo dato, forse prevedibile, il team di studiosi evidenzia un problema non da poco, ovvero che, per come sono attualmente organizzati questi studi, questa fondamentale conoscenza rischia di essere infruibile sia dalla comunità scientifica che dal largo pubblico.

«NECESSARIE MAPPE DI RICERCA BASATE SUL MACHINE LEARNING»

Mancano sistemi di ricerca integrata, non è possibile navigare con efficacia questo vasto universo di parole, la conoscenza non sistematizzata e non formattata è come se andasse perduta. Per questo, sostengono gli studiosi, è assolutamente necessario impostare «mappe di ricerca basate sul machine learning», che è la proposta che dà anche il titolo allo studio. «Fino ad oggi i tentativi messi in campo si sono basati primariamente su citazioni, co-occorrenze di parole chiave e altre misure bibliometriche per identificare la letteratura più adeguata», spiegano i ricercatori guidati dal dottor Doanvo. Ci sono già dei motori di ricerca con livelli interessanti di automazione, come il LitCOVID creato dall’americano National Center for Biotechnology Information, ma gli studiosi puntano a fare il passo ulteriore: serve un sistema, dicono, non influenzato dalle scelte degli autori ma dal loro linguaggio naturale. Illustriamo: il ricercatore oggi quando pubblica uno studio associa manualmente le parole chiave e i “tag” che potranno essere poi utili per una ricerca bibliografica (pensiamo ai tantissimi studenti che cercheranno materiale utile per delle tesi di laurea o di dottorato su questa fase pandemica). Non sarebbe più semplice, spiegano gli studiosi, se ci fossero motori verbali che setacciano in autonomia il testo degli studi, elaborando una rappresentazione costruita appunto sul «linguaggio naturale»? Questo aiuterebbe fra l’altro ad allargare le potenzialità della conoscenza perché molto spesso alcuni studi “minori” e un po’ fuori dai giri, ma importanti, rischiano di essere trascurati.

LA SOLUZIONE

La soluzione proposta dal team di ricerca ha il nome, ormai noto – ne abbiamo già parlato nei giorni scorsi su Sanità Informazione – dei sistemi di intelligenza artificiale, per la precisione di algoritmi di machine learning per il linguaggio naturale. «Le nostre matrici», spiegano dal Distretto di Columbia, «ci permettono di mappare l’intero testo degli abstract delle pubblicazioni, invece di affidarci solo alle parole chiave e ai metadati». Questo motore di analisi sperimentale è stato già “sguinzagliato” su quasi 140mila research paper pubblicati su CORD-19, il Covid19 Open Research Dataset per, ad esempio, «rinvenire argomenti che ad oggi hanno ricevuto un’attenzione limitata», così da individuare «dettagli della ricerca sul SARS – CoV – 2 che meriterebbero una ulteriore esplorazione». Dalla ricerca su 35mila studi specificatamente focalizzati sul Coronavirus emergerebbe che «c’è ad oggi un numero limitato di studi di laboratorio sui meccanismi virali del SARS – CoV -2».

I MACRO ARGOMENTI

L’analisi metrica indicherebbe inoltre che il 58% degli abstract di articoli che parlano del Coronavirus si concentrano su cinque macro-argomenti: impatto della pandemia sui sistemi sanitari; test e tamponi per il Covid19; statistiche epidemiche e modellizzazione; cure cliniche e terapie; lessons learned per il rinforzo della risposta epidemica. Quanto agli studi che hanno ricevuto il più rapido incremento, i grafici allegati allo studio raccontano che la parte del leone è rappresentata dagli studi sui problemi di salute pubblica connessi alla pandemia.

I RISULTATI DELLA RICERCA

«La nostra ricerca», osserva la squadra di lavoro, «sembra dimostrare l’utilità di un approccio a Linguaggio Naturale per determinare potenziali aree di sottorappresentazione negli attuali sforzi di ricerca per il Covid19. Applicando dei metodi di machine learning ai database, abbiamo identificato delle chiavi di ricerca sovrarappresentate e la distribuzione degli abstract fra gli argomenti e in base al tempo di pubblicazione. Il nostro studio riporta il contributo originale riguardo gli studi sul Covid19 laboratoriali: questi, inclusi quelli con aspetti genetici e biomolecolari, sono sottorappresentati rispetto a questioni epidemiologiche e cliniche (…) Questo trend è confermato nell’osservazione di maggio e nell’osservazione di luglio». Un dato puntuale, fondato sui numeri e certamente inedito.

 

Iscriviti alla newsletter di Sanità Informazione per rimanere sempre aggiornato

Articoli correlati
Nasce il progetto PMLAb per i pazienti COVID-19 immunocompromessi
La gestione del paziente immunocompromesso con COVID-19 richiede una particolare attenzione, che si concretizza con le Profilassi Pre-Esposizione con anticorpi monoclonali. A questo scopo è nato il progetto Prevention Management LAboratory (PMLAb), presentato oggi a Roma
L’Intelligenza artificiale di Google batte i medici in carne e ossa su anamnesi e diagnosi
Un sistema di intelligenza artificiale (AI) addestrato a condurre interviste mediche ha eguagliato, o addirittura superato, le prestazioni dei medici in carne e ossa nel conversare con pazienti simulati e nell'elencare possibili diagnosi sulla base della loro storia medica dei pazienti. Queste sono le conclusioni di uno studio pubblicato sul server di prestampa arXiv e riportato in un articolo riportato su Nature
Tumore al seno, l’Intelligenza artificiale può risparmiare alle donne terapie inutili
Grazie all'Intelligenza artificiale è possibile sapere in anticipo se una donna con tumore al seno beneficerà o meno di un trattamento. Un gruppo di ricercatori della Northwestern University, Usa, ha messo a punto un nuovo strumento che potrebbe evitare alle pazienti trattamenti chemioterapici non necessari. Lo studio è stato pubblicato su Nature Medicine
Grazie all’intelligenza artificiale 1 persona su 2 potrebbe lavorare solo 4 giorni a settimana
Secondo un nuovo studio incentrato sulla forza lavoro britannica e americana, l’intelligenza artificiale potrebbe consentire a milioni di lavoratori di passare alla settimana lavorativa di quattro giorni entro il 2033
Donne “cenerentole” della ricerca in Europa, anche se metà dei laureati e dottorati è “rosa”
Le donne rappresentano circa la metà dei laureati e dei dottorati in Europa, ma abbandonano progressivamente la carriera accademica, arrivando a costituire appena il 33% della forza lavoro nel mondo della ricerca, e solo il 26% dei professori ordinari, direttori di dipartimento o di centri di ricerca. È il quadro tratteggiato in un articolo sulla rivista The Lancet Regional Health
GLI ARTICOLI PIU’ LETTI
Advocacy e Associazioni

Percorso Regolatorio farmaci Aifa: i pazienti devono partecipare ai processi decisionali. Presentato il progetto InPags

Attraverso il progetto InPags, coordinato da Rarelab, discussi 5 dei possibili punti da sviluppare per definire criteri e modalità. Obiettivo colmare il gap tra Italia e altri Paesi europei in ...
Advocacy e Associazioni

Disability Card: “Una nuova frontiera europea per i diritti delle persone con disabilità”. A che punto siamo

La Disability Card e l'European Parking Card sono strumenti che mirano a facilitare l'accesso ai servizi e a uniformare i diritti in tutta Europa. L'intervista all'avvocato Giovanni Paolo Sperti, seg...
Sanità

I migliori ospedali d’Italia? Sul podio Careggi, l’Aou Marche e l’Humanitas di Rozzano

A fotografare le performance di 1.363 ospedali pubblici e privati nel 2023 è il Programma nazionale sititi di Agenas. Il nuovo report mostra un aumento dei  ricoveri programmati e diu...