Salute 23 Settembre 2020

Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Una squadra di ricerca applica algoritmi di machine learning a oltre 30mila pubblicazioni. La scoperta? «Studi genetici, biomolecolari e test di laboratorio sono sottorappresentati»

di Tommaso Caldarelli
Immagine articolo

Dall’inizio della pandemia da Coronavirus la comunità medico scientifica ha pubblicato «decine di migliaia di studi». Lo riporta un paper pubblicato dall’autorevole Cell in pre-print, scritto da una squadra di ricerca internazionale con base a Washington DC: al di là di questo dato, forse prevedibile, il team di studiosi evidenzia un problema non da poco, ovvero che, per come sono attualmente organizzati questi studi, questa fondamentale conoscenza rischia di essere infruibile sia dalla comunità scientifica che dal largo pubblico.

«NECESSARIE MAPPE DI RICERCA BASATE SUL MACHINE LEARNING»

Mancano sistemi di ricerca integrata, non è possibile navigare con efficacia questo vasto universo di parole, la conoscenza non sistematizzata e non formattata è come se andasse perduta. Per questo, sostengono gli studiosi, è assolutamente necessario impostare «mappe di ricerca basate sul machine learning», che è la proposta che dà anche il titolo allo studio. «Fino ad oggi i tentativi messi in campo si sono basati primariamente su citazioni, co-occorrenze di parole chiave e altre misure bibliometriche per identificare la letteratura più adeguata», spiegano i ricercatori guidati dal dottor Doanvo. Ci sono già dei motori di ricerca con livelli interessanti di automazione, come il LitCOVID creato dall’americano National Center for Biotechnology Information, ma gli studiosi puntano a fare il passo ulteriore: serve un sistema, dicono, non influenzato dalle scelte degli autori ma dal loro linguaggio naturale. Illustriamo: il ricercatore oggi quando pubblica uno studio associa manualmente le parole chiave e i “tag” che potranno essere poi utili per una ricerca bibliografica (pensiamo ai tantissimi studenti che cercheranno materiale utile per delle tesi di laurea o di dottorato su questa fase pandemica). Non sarebbe più semplice, spiegano gli studiosi, se ci fossero motori verbali che setacciano in autonomia il testo degli studi, elaborando una rappresentazione costruita appunto sul «linguaggio naturale»? Questo aiuterebbe fra l’altro ad allargare le potenzialità della conoscenza perché molto spesso alcuni studi “minori” e un po’ fuori dai giri, ma importanti, rischiano di essere trascurati.

LA SOLUZIONE

La soluzione proposta dal team di ricerca ha il nome, ormai noto – ne abbiamo già parlato nei giorni scorsi su Sanità Informazione – dei sistemi di intelligenza artificiale, per la precisione di algoritmi di machine learning per il linguaggio naturale. «Le nostre matrici», spiegano dal Distretto di Columbia, «ci permettono di mappare l’intero testo degli abstract delle pubblicazioni, invece di affidarci solo alle parole chiave e ai metadati». Questo motore di analisi sperimentale è stato già “sguinzagliato” su quasi 140mila research paper pubblicati su CORD-19, il Covid19 Open Research Dataset per, ad esempio, «rinvenire argomenti che ad oggi hanno ricevuto un’attenzione limitata», così da individuare «dettagli della ricerca sul SARS – CoV – 2 che meriterebbero una ulteriore esplorazione». Dalla ricerca su 35mila studi specificatamente focalizzati sul Coronavirus emergerebbe che «c’è ad oggi un numero limitato di studi di laboratorio sui meccanismi virali del SARS – CoV -2».

I MACRO ARGOMENTI

L’analisi metrica indicherebbe inoltre che il 58% degli abstract di articoli che parlano del Coronavirus si concentrano su cinque macro-argomenti: impatto della pandemia sui sistemi sanitari; test e tamponi per il Covid19; statistiche epidemiche e modellizzazione; cure cliniche e terapie; lessons learned per il rinforzo della risposta epidemica. Quanto agli studi che hanno ricevuto il più rapido incremento, i grafici allegati allo studio raccontano che la parte del leone è rappresentata dagli studi sui problemi di salute pubblica connessi alla pandemia.

I RISULTATI DELLA RICERCA

«La nostra ricerca», osserva la squadra di lavoro, «sembra dimostrare l’utilità di un approccio a Linguaggio Naturale per determinare potenziali aree di sottorappresentazione negli attuali sforzi di ricerca per il Covid19. Applicando dei metodi di machine learning ai database, abbiamo identificato delle chiavi di ricerca sovrarappresentate e la distribuzione degli abstract fra gli argomenti e in base al tempo di pubblicazione. Il nostro studio riporta il contributo originale riguardo gli studi sul Covid19 laboratoriali: questi, inclusi quelli con aspetti genetici e biomolecolari, sono sottorappresentati rispetto a questioni epidemiologiche e cliniche (…) Questo trend è confermato nell’osservazione di maggio e nell’osservazione di luglio». Un dato puntuale, fondato sui numeri e certamente inedito.

 

Iscriviti alla newsletter di Sanità Informazione per rimanere sempre aggiornato

Articoli correlati
Covid-19, Ricciardi: «Possiamo evitare lockdown ma non con coprifuoco. Politica in ritardo»
Il consulente del ministro Speranza: «Il coprifuoco non è stato efficace in Francia e in Spagna. Il Covid lo portano le masse di persone che si addensano nei locali o sui trasporti pubblici»
Covid-19, Cifaldi (Cisl Medici Lazio): «Servono misure eccezionali per far fronte alla situazione»
«Quello che sta accadendo è la prova provata che non si sta investendo nella medicina territoriale e neanche nei dipartimenti di prevenzione cioè quelli che si occupano di igiene pubblica» dichiara in un comunicato Luciano Cifaldi, segretario generale della Cisl Medici Lazio. «Vorremmo che qualcuno ci spiegasse a cosa serve fare migliaia di tamponi se […]
Covid-19, Rostan (Iv): «Emergenza  non metta a rischio altre patologie»
«Ancora tante le strutture ospedaliere sprovviste di percorsi in sicurezza Covid con pazienti che occupano i triage dei Pronto soccorso o le corsie di reparti» segnala la Vicepresidente della Commissione Affari Sociali Michela Rostan
Covid, Gimbe: «Raddoppiano positivi e decessi, virus corre più veloce dei Dpcm»
Incremento esponenziale anche questa settimana secondo Fondazione Gimbe. Dal 7,8% della Provincia Autonoma di Trento al 44,9% della Campania. Raddoppia il tasso di positività
Covid-19, il virologo Palù: «Vi spiego perché non sempre gli asintomatici sono da considerare malati»
Il virologo veneto, già Presidente della Società Europea di Virologia, spiega dove si può intervenire per contenere i contagi: «Stop alla movida, contingentare gli ingressi nei supermercati e ridurre la capienza dei mezzi pubblici. Ma dico no a un nuovo lockdown». Poi ammonisce: «Attenzione a dimenticare le altre patologie o rischiamo guai peggiori»
GLI ARTICOLI PIU’ LETTI
Non Categorizzato

La diffusione del coronavirus in tempo reale nel mondo e in Italia

Al 22 ottobre, sono 41.243.013 i casi di coronavirus in tutto il mondo e 1.131.528 i decessi. Mappa elaborata dalla Johns Hopkins CSSE.   I CASI IN ITALIA Bollettino del 21 ottobre: Ad oggi in I...
Contributi e Opinioni

«Tamponi Covid sui bambini: troppe prescrizioni che non tengono conto dei rischi intra-procedurali»

di prof. Filippo Festini, Professore Associato di Scienze Infermieristiche generali, cliniche e pediatriche all’Università degli Studi di Firenze
di Filippo Festini, Professore Associato di Scienze Infermieristiche generali, cliniche e pediatriche, Università di Firenze
Ecm

ECM, De Pascale (Co.Ge.APS): «Entro fine anno azzereremo posizioni arretrate e Ordini potranno certificare formazione»

Il presidente del Co.Ge.APS racconta a Sanità Informazione i mesi appena trascorsi e anticipa il cambiamento di forma giuridica che il Consorzio avrà dal prossimo anno. E sulla riforma del sistema E...