Una squadra di ricerca applica algoritmi di machine learning a oltre 30mila pubblicazioni. La scoperta? «Studi genetici, biomolecolari e test di laboratorio sono sottorappresentati»
Dall’inizio della pandemia da Coronavirus la comunità medico scientifica ha pubblicato «decine di migliaia di studi». Lo riporta un paper pubblicato dall’autorevole Cell in pre-print, scritto da una squadra di ricerca internazionale con base a Washington DC: al di là di questo dato, forse prevedibile, il team di studiosi evidenzia un problema non da poco, ovvero che, per come sono attualmente organizzati questi studi, questa fondamentale conoscenza rischia di essere infruibile sia dalla comunità scientifica che dal largo pubblico.
Mancano sistemi di ricerca integrata, non è possibile navigare con efficacia questo vasto universo di parole, la conoscenza non sistematizzata e non formattata è come se andasse perduta. Per questo, sostengono gli studiosi, è assolutamente necessario impostare «mappe di ricerca basate sul machine learning», che è la proposta che dà anche il titolo allo studio. «Fino ad oggi i tentativi messi in campo si sono basati primariamente su citazioni, co-occorrenze di parole chiave e altre misure bibliometriche per identificare la letteratura più adeguata», spiegano i ricercatori guidati dal dottor Doanvo. Ci sono già dei motori di ricerca con livelli interessanti di automazione, come il LitCOVID creato dall’americano National Center for Biotechnology Information, ma gli studiosi puntano a fare il passo ulteriore: serve un sistema, dicono, non influenzato dalle scelte degli autori ma dal loro linguaggio naturale. Illustriamo: il ricercatore oggi quando pubblica uno studio associa manualmente le parole chiave e i “tag” che potranno essere poi utili per una ricerca bibliografica (pensiamo ai tantissimi studenti che cercheranno materiale utile per delle tesi di laurea o di dottorato su questa fase pandemica). Non sarebbe più semplice, spiegano gli studiosi, se ci fossero motori verbali che setacciano in autonomia il testo degli studi, elaborando una rappresentazione costruita appunto sul «linguaggio naturale»? Questo aiuterebbe fra l’altro ad allargare le potenzialità della conoscenza perché molto spesso alcuni studi “minori” e un po’ fuori dai giri, ma importanti, rischiano di essere trascurati.
La soluzione proposta dal team di ricerca ha il nome, ormai noto – ne abbiamo già parlato nei giorni scorsi su Sanità Informazione – dei sistemi di intelligenza artificiale, per la precisione di algoritmi di machine learning per il linguaggio naturale. «Le nostre matrici», spiegano dal Distretto di Columbia, «ci permettono di mappare l’intero testo degli abstract delle pubblicazioni, invece di affidarci solo alle parole chiave e ai metadati». Questo motore di analisi sperimentale è stato già “sguinzagliato” su quasi 140mila research paper pubblicati su CORD-19, il Covid19 Open Research Dataset per, ad esempio, «rinvenire argomenti che ad oggi hanno ricevuto un’attenzione limitata», così da individuare «dettagli della ricerca sul SARS – CoV – 2 che meriterebbero una ulteriore esplorazione». Dalla ricerca su 35mila studi specificatamente focalizzati sul Coronavirus emergerebbe che «c’è ad oggi un numero limitato di studi di laboratorio sui meccanismi virali del SARS – CoV -2».
L’analisi metrica indicherebbe inoltre che il 58% degli abstract di articoli che parlano del Coronavirus si concentrano su cinque macro-argomenti: impatto della pandemia sui sistemi sanitari; test e tamponi per il Covid19; statistiche epidemiche e modellizzazione; cure cliniche e terapie; lessons learned per il rinforzo della risposta epidemica. Quanto agli studi che hanno ricevuto il più rapido incremento, i grafici allegati allo studio raccontano che la parte del leone è rappresentata dagli studi sui problemi di salute pubblica connessi alla pandemia.
«La nostra ricerca», osserva la squadra di lavoro, «sembra dimostrare l’utilità di un approccio a Linguaggio Naturale per determinare potenziali aree di sottorappresentazione negli attuali sforzi di ricerca per il Covid19. Applicando dei metodi di machine learning ai database, abbiamo identificato delle chiavi di ricerca sovrarappresentate e la distribuzione degli abstract fra gli argomenti e in base al tempo di pubblicazione. Il nostro studio riporta il contributo originale riguardo gli studi sul Covid19 laboratoriali: questi, inclusi quelli con aspetti genetici e biomolecolari, sono sottorappresentati rispetto a questioni epidemiologiche e cliniche (…) Questo trend è confermato nell’osservazione di maggio e nell’osservazione di luglio». Un dato puntuale, fondato sui numeri e certamente inedito.
Iscriviti alla newsletter di Sanità Informazione per rimanere sempre aggiornato