Salute 23 Settembre 2020 09:10

Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Una squadra di ricerca applica algoritmi di machine learning a oltre 30mila pubblicazioni. La scoperta? «Studi genetici, biomolecolari e test di laboratorio sono sottorappresentati»

di Tommaso Caldarelli
Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Dall’inizio della pandemia da Coronavirus la comunità medico scientifica ha pubblicato «decine di migliaia di studi». Lo riporta un paper pubblicato dall’autorevole Cell in pre-print, scritto da una squadra di ricerca internazionale con base a Washington DC: al di là di questo dato, forse prevedibile, il team di studiosi evidenzia un problema non da poco, ovvero che, per come sono attualmente organizzati questi studi, questa fondamentale conoscenza rischia di essere infruibile sia dalla comunità scientifica che dal largo pubblico.

«NECESSARIE MAPPE DI RICERCA BASATE SUL MACHINE LEARNING»

Mancano sistemi di ricerca integrata, non è possibile navigare con efficacia questo vasto universo di parole, la conoscenza non sistematizzata e non formattata è come se andasse perduta. Per questo, sostengono gli studiosi, è assolutamente necessario impostare «mappe di ricerca basate sul machine learning», che è la proposta che dà anche il titolo allo studio. «Fino ad oggi i tentativi messi in campo si sono basati primariamente su citazioni, co-occorrenze di parole chiave e altre misure bibliometriche per identificare la letteratura più adeguata», spiegano i ricercatori guidati dal dottor Doanvo. Ci sono già dei motori di ricerca con livelli interessanti di automazione, come il LitCOVID creato dall’americano National Center for Biotechnology Information, ma gli studiosi puntano a fare il passo ulteriore: serve un sistema, dicono, non influenzato dalle scelte degli autori ma dal loro linguaggio naturale. Illustriamo: il ricercatore oggi quando pubblica uno studio associa manualmente le parole chiave e i “tag” che potranno essere poi utili per una ricerca bibliografica (pensiamo ai tantissimi studenti che cercheranno materiale utile per delle tesi di laurea o di dottorato su questa fase pandemica). Non sarebbe più semplice, spiegano gli studiosi, se ci fossero motori verbali che setacciano in autonomia il testo degli studi, elaborando una rappresentazione costruita appunto sul «linguaggio naturale»? Questo aiuterebbe fra l’altro ad allargare le potenzialità della conoscenza perché molto spesso alcuni studi “minori” e un po’ fuori dai giri, ma importanti, rischiano di essere trascurati.

LA SOLUZIONE

La soluzione proposta dal team di ricerca ha il nome, ormai noto – ne abbiamo già parlato nei giorni scorsi su Sanità Informazione – dei sistemi di intelligenza artificiale, per la precisione di algoritmi di machine learning per il linguaggio naturale. «Le nostre matrici», spiegano dal Distretto di Columbia, «ci permettono di mappare l’intero testo degli abstract delle pubblicazioni, invece di affidarci solo alle parole chiave e ai metadati». Questo motore di analisi sperimentale è stato già “sguinzagliato” su quasi 140mila research paper pubblicati su CORD-19, il Covid19 Open Research Dataset per, ad esempio, «rinvenire argomenti che ad oggi hanno ricevuto un’attenzione limitata», così da individuare «dettagli della ricerca sul SARS – CoV – 2 che meriterebbero una ulteriore esplorazione». Dalla ricerca su 35mila studi specificatamente focalizzati sul Coronavirus emergerebbe che «c’è ad oggi un numero limitato di studi di laboratorio sui meccanismi virali del SARS – CoV -2».

I MACRO ARGOMENTI

L’analisi metrica indicherebbe inoltre che il 58% degli abstract di articoli che parlano del Coronavirus si concentrano su cinque macro-argomenti: impatto della pandemia sui sistemi sanitari; test e tamponi per il Covid19; statistiche epidemiche e modellizzazione; cure cliniche e terapie; lessons learned per il rinforzo della risposta epidemica. Quanto agli studi che hanno ricevuto il più rapido incremento, i grafici allegati allo studio raccontano che la parte del leone è rappresentata dagli studi sui problemi di salute pubblica connessi alla pandemia.

I RISULTATI DELLA RICERCA

«La nostra ricerca», osserva la squadra di lavoro, «sembra dimostrare l’utilità di un approccio a Linguaggio Naturale per determinare potenziali aree di sottorappresentazione negli attuali sforzi di ricerca per il Covid19. Applicando dei metodi di machine learning ai database, abbiamo identificato delle chiavi di ricerca sovrarappresentate e la distribuzione degli abstract fra gli argomenti e in base al tempo di pubblicazione. Il nostro studio riporta il contributo originale riguardo gli studi sul Covid19 laboratoriali: questi, inclusi quelli con aspetti genetici e biomolecolari, sono sottorappresentati rispetto a questioni epidemiologiche e cliniche (…) Questo trend è confermato nell’osservazione di maggio e nell’osservazione di luglio». Un dato puntuale, fondato sui numeri e certamente inedito.

 

Iscriviti alla newsletter di Sanità Informazione per rimanere sempre aggiornato

Articoli correlati
Il cerotto intelligente: lo applichi sulla pelle e ti “dice” come stai
I ricercatori dell’Università di Chicago: «Il nostro dispositivo è dotato di un chip che, imitando il cervello umano, è in grado di raccogliere dati da più biosensori e trarre conclusioni sulla salute di una persona». In futuro potrebbe essere utilizzato anche per inviare avvisi a pazienti e medici in caso di necessità
Giffoni Innovation Hub, grande accoglienza per “Hai mai visto un unicorno?”, il cortometraggio che parla di vita e di SMA
Ragazzi dai 18 ai 30 anni hanno partecipato alla presentazione del film realizzato da Famiglie SMA, OMaR e GoGo Frames ponendo numerose domande per giungere a una riflessione: necessario parlare, raccontarsi ed essere ascoltati, soprattutto quando c’è di mezzo una disabilità
La ricerca non può avere confini amministrativi, intervenga l’Autorità Garante
di Luigi Cajazzo, Direttore Generale Fondazione Ricerca Biomedica Lombardia
di Luigi Cajazzo, Direttore Generale Fondazione Ricerca Biomedica Lombardia
Fare prevenzione cardiaca con l’intelligenza artificiale, l’ultima sfida del Cardiologico Monzino
Vincitore di un bando europeo promosso dalla Fondazione Regionale per la Ricerca Biomedica, il progetto, diretto dal professor Claudio Tondo, in collaborazione con il Politecnico di Milano metterà a punto, grazie all’intelligenza artificiale, dei parametri in grado di studiare i rischi cardiovascolari e personalizzare le cure
Si possono bere alcolici quando si risulta positivi al Sars-CoV-2?
Il consumo di alcolici è controindicato quando si è positivi al virus Sars CoV-2. Gli studi mostrano infatti che gli alcolici possono compromettere il sistema immunitario
GLI ARTICOLI PIU’ LETTI
Non Categorizzato

Covid-19 e vaccini: i numeri in Italia e nel mondo

Al 26 settembre 2022, sono 615.090.972 i casi di Covid-19 in tutto il mondo e 6.536.966 i decessi. Ad oggi, oltre 12.25 miliardi di dosi di vaccino sono state somministrate nel mondo. Mappa elaborata ...
Covid-19, che fare se...?

Se risulto negativo al test ma ho ancora i sintomi posso contagiare gli altri?

Sintomi come febbre e tosse possono durare più della positività al test antigenico rapido. Gli scienziati si stanno interrogando quindi sulla durata della contagiosità. L'ipotesi ...
Covid-19, che fare se...?

Quanto durano i sintomi del Long Covid?

La durata dei sintomi collegati al Long Covid può essere molto variabile: si va da qualche settimana fino anche a 24 mesi