Gli scienziati dei dati analizzano le occorrenze: «La principale parola è Covid-19, mentre le altre sono dati, analisi, Coronavirus e sistemi di deep learning»
Sono oltre 57mila gli articoli di ricerca scientifica sul Coronavirus pubblicati ad oggi, di cui oltre 45mila full-text: sono i numeri che risultano aggregati dal COVID-19 Open Research Dataset Challenge (CORD-19), una iniziativa promossa dal consorzio guidato dall’Allen Institute for AI e sostenuto dalla Chan Zuckerberg Initiative, dalle divisioni biologia e scienza di aRXiv (bioRxiv e medRxiv), dal centro ricerca di Microsoft, dal centro di ricerca per la Sicurezza e per le tecnologie innovative della Georgetown University, dalla Biblioteca Nazionale di Medicina in coordinamento con le task force della Casa Bianca. Un database mostruosamente grande di conoscenza scientifica e ipotesi di ricerca che viene aggiornato con cadenza regolare.
Una tale dimensione per una simile base dati offre la possibilità di organizzare gli archivi, indagare le correlazioni e osservare le tendenze nelle attività di ricerca. Adrian Raudaschl, medico già in forza al servizio sanitario nazionale inglese e poi attivo nel settore privato, all’inizio di marzo aveva già, utilizzando alcune metriche di scienza dei dati, provato a mappare “9 trend di ricerca sul Coronavirus”, prendendo in considerazione i preprint a quel punto disponibili. Le occorrenze da lui trovate indicavano come ricorrenti nello sforzo degli scienziati le parole chiave: tomografia computerizzata, innovazione diagnostica, stato dei sistemi di salute pubblica dei Paesi del mondo, insonnia e problemi psicologici del personale medico, efficacia delle misure di isolamento, efficacia dei test genetici per la diagnostica, metodi per differenziare le diagnosi da Coronavirus rispetto a virus affini, individuazione delle categorie a rischio, linee guida per la terapia intensiva nei pazienti da Coronavirus.
Non è l’unico che ha tentato di lavorare su simili mappature. Milan Janosov è dottore di ricerca in scienza delle reti alla Central European University di Budapest dove collabora con Albert-László Barabási, fisico all’università di Parigi – Notre Dame e uno dei più importanti network scientists del mondo. Janosov, prendendo in considerazione oltre 250 articoli apparsi in pre-print su arXiv, ha realizzato una mappatura grafica dei trend di ricerca sul Coronavirus alla fine dello scorso marzo; si tratta di lavori principalmente redatti da fisici, matematici e data scientists. «Le principali direzioni nella ricerca – ha spiegato il dottor Janosov raggiunto via e-mail da Sanità Informazione – riguardavano i sistemi di modellamento della diffusione del contagio, i modelli di crescita dell’epidemia, alcuni articoli sui ventilatori polmonari, quali potessero essere le tecniche di deep learning e di diagnostica per immagini nella medicina polmonare e alcune ricerche sulle interazioni proteiniche». Queste “famiglie” di ricerca sono graficamente visualizzate all’interno della ragnatela generata dal dottor Janosov, che raggruppa i research trends in sette gruppi di interesse.
Il metodo con cui è stata realizzata questa fotografia delle tendenze di ricerca, ci spiega Janosov, è analogo a quello utilizzato in una precedente mappatura degli studi sul cambiamento climatico e pubblicata in un contributo su Nature: una volta raccolti tutti i titoli degli studi, scrive Janosov, «si applicano diversi metodi di pulizia del testo per creare la rete di co-occorrenze delle parole menzionate nei titoli degli articoli. Si costruisce poi una rete di parole, dove ogni nodo rappresenta una parola e un link fra due parole esiste se una di esse segue l’altra nei titoli. Più frequentemente due parole chiave sono co-menzionate, più forte è la loro connessione. In aggiunta, la grandezza dei nodi in questa rete è proporzionale al numero di volte che ogni parola appare nel titolo e nel corpo». E, «non sorprendentemente – conclude Janosov – la principale parola è Covid-19, mentre le altre sono dati, analisi, Coronavirus e sistemi di deep learning».
ISCRIVITI ALLA NEWSLETTER DI SANITÀ INFORMAZIONE PER RIMANERE SEMPRE AGGIORNATO