Salute 23 Settembre 2020 09:10

Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Una squadra di ricerca applica algoritmi di machine learning a oltre 30mila pubblicazioni. La scoperta? «Studi genetici, biomolecolari e test di laboratorio sono sottorappresentati»

di Tommaso Caldarelli
Coronavirus, decine di migliaia di studi pubblicati: «Così sono infruibili»

Dall’inizio della pandemia da Coronavirus la comunità medico scientifica ha pubblicato «decine di migliaia di studi». Lo riporta un paper pubblicato dall’autorevole Cell in pre-print, scritto da una squadra di ricerca internazionale con base a Washington DC: al di là di questo dato, forse prevedibile, il team di studiosi evidenzia un problema non da poco, ovvero che, per come sono attualmente organizzati questi studi, questa fondamentale conoscenza rischia di essere infruibile sia dalla comunità scientifica che dal largo pubblico.

«NECESSARIE MAPPE DI RICERCA BASATE SUL MACHINE LEARNING»

Mancano sistemi di ricerca integrata, non è possibile navigare con efficacia questo vasto universo di parole, la conoscenza non sistematizzata e non formattata è come se andasse perduta. Per questo, sostengono gli studiosi, è assolutamente necessario impostare «mappe di ricerca basate sul machine learning», che è la proposta che dà anche il titolo allo studio. «Fino ad oggi i tentativi messi in campo si sono basati primariamente su citazioni, co-occorrenze di parole chiave e altre misure bibliometriche per identificare la letteratura più adeguata», spiegano i ricercatori guidati dal dottor Doanvo. Ci sono già dei motori di ricerca con livelli interessanti di automazione, come il LitCOVID creato dall’americano National Center for Biotechnology Information, ma gli studiosi puntano a fare il passo ulteriore: serve un sistema, dicono, non influenzato dalle scelte degli autori ma dal loro linguaggio naturale. Illustriamo: il ricercatore oggi quando pubblica uno studio associa manualmente le parole chiave e i “tag” che potranno essere poi utili per una ricerca bibliografica (pensiamo ai tantissimi studenti che cercheranno materiale utile per delle tesi di laurea o di dottorato su questa fase pandemica). Non sarebbe più semplice, spiegano gli studiosi, se ci fossero motori verbali che setacciano in autonomia il testo degli studi, elaborando una rappresentazione costruita appunto sul «linguaggio naturale»? Questo aiuterebbe fra l’altro ad allargare le potenzialità della conoscenza perché molto spesso alcuni studi “minori” e un po’ fuori dai giri, ma importanti, rischiano di essere trascurati.

LA SOLUZIONE

La soluzione proposta dal team di ricerca ha il nome, ormai noto – ne abbiamo già parlato nei giorni scorsi su Sanità Informazione – dei sistemi di intelligenza artificiale, per la precisione di algoritmi di machine learning per il linguaggio naturale. «Le nostre matrici», spiegano dal Distretto di Columbia, «ci permettono di mappare l’intero testo degli abstract delle pubblicazioni, invece di affidarci solo alle parole chiave e ai metadati». Questo motore di analisi sperimentale è stato già “sguinzagliato” su quasi 140mila research paper pubblicati su CORD-19, il Covid19 Open Research Dataset per, ad esempio, «rinvenire argomenti che ad oggi hanno ricevuto un’attenzione limitata», così da individuare «dettagli della ricerca sul SARS – CoV – 2 che meriterebbero una ulteriore esplorazione». Dalla ricerca su 35mila studi specificatamente focalizzati sul Coronavirus emergerebbe che «c’è ad oggi un numero limitato di studi di laboratorio sui meccanismi virali del SARS – CoV -2».

I MACRO ARGOMENTI

L’analisi metrica indicherebbe inoltre che il 58% degli abstract di articoli che parlano del Coronavirus si concentrano su cinque macro-argomenti: impatto della pandemia sui sistemi sanitari; test e tamponi per il Covid19; statistiche epidemiche e modellizzazione; cure cliniche e terapie; lessons learned per il rinforzo della risposta epidemica. Quanto agli studi che hanno ricevuto il più rapido incremento, i grafici allegati allo studio raccontano che la parte del leone è rappresentata dagli studi sui problemi di salute pubblica connessi alla pandemia.

I RISULTATI DELLA RICERCA

«La nostra ricerca», osserva la squadra di lavoro, «sembra dimostrare l’utilità di un approccio a Linguaggio Naturale per determinare potenziali aree di sottorappresentazione negli attuali sforzi di ricerca per il Covid19. Applicando dei metodi di machine learning ai database, abbiamo identificato delle chiavi di ricerca sovrarappresentate e la distribuzione degli abstract fra gli argomenti e in base al tempo di pubblicazione. Il nostro studio riporta il contributo originale riguardo gli studi sul Covid19 laboratoriali: questi, inclusi quelli con aspetti genetici e biomolecolari, sono sottorappresentati rispetto a questioni epidemiologiche e cliniche (…) Questo trend è confermato nell’osservazione di maggio e nell’osservazione di luglio». Un dato puntuale, fondato sui numeri e certamente inedito.

 

Iscriviti alla newsletter di Sanità Informazione per rimanere sempre aggiornato

Articoli correlati
A Pisa doppia laurea con Marsiglia e Stoccolma su IA e salute
arte all'Università di Pisa, prima in Italia, la laurea magistrale in biotecnologie e intelligenza artificiale applicata alla salute che consentirà di ottenere un doppio titolo con l'Università di Aix Marsiglia o con quella di Stoccolma
di Redazione
Una “gara” di disinformazione su salute e ambiente: l’Intelligenza Artificiale batte gli umani
Un modello di Intelligenza artificiale (IA), chiamato GPT-3, diffonde disinformazione in modo più credibile degli esseri umani. A dimostrarlo è uno studio di Giovani Spitale dell’Università di Zurigo, pubblicato sulla rivista Science Advances
di Cesare Buquicchio
Pnrr: con PRP@CERIC nuova infrastruttura di ricerca per studiare agenti patogeni
Un'infrastruttura di ricerca altamente specializzata, unica in Europa, che integra strumentazioni e competenze in biologia, biochimica, fisica, bio-elettronica, bio-informatica e scienza dei dati per studiare agenti patogeni di origine umana, animale e vegetale e intervenire rapidamente per contrastare la diffusione di possibili nuovi focolai di malattie. Questo è l'obiettivo del progetto PRP@CERIC, finanziato con 41 milioni di euro dal Piano Nazionale di Ripresa e Resilienza
Covid, alcune persone potrebbero aver perso l’olfatto per sempre? L’ipotesi allarmante in uno studio
La perdita dell'olfatto a causa di Covid-19 potrebbe durare a lungo o addirittura per sempre. Uno studio rivela che una persona su 20 non l'ha recuperato dopo 18 mesi
L’Intelligenza artificiale conquista l’Healthcare: cresce l’impiego in ricerca, diagnosi e cura
In occasione della Milano digital Week confronto tra protagonisti di design, Ai e digitale sull’impiego in sanità. Dalle app che dialogano con i pazienti, ai software che fanno interagire le strutture sanitarie, ma resta aperto il quesito sul consenso dei dati
GLI ARTICOLI PIU’ LETTI
Salute

Diabete: nuove linee guida per il trattamento delle malattie cardiovascolari

Sono state pubblicate le nuove linee guida per le malattie cardiovascolari nelle persone con diabete. Molti i temi trattati: dalla stratificazione del rischio cardiovascolare allo screening fino alla ...
Salute

Gli alimenti ultra-processati danneggiano il cuore, +24% di rischio infarto

Due ampi studi presentati al congresso della Società europea di Cardiologia hanno dimostrato che il consumo di alimenti ultra-processati può aumentare il rischio di sviluppare problemi c...
Salute

Covid: alta adesione degli over 60 ai vaccini ridurrebbe fino al 32% i ricoveri, le raccomandazioni nel Calendario per la Vita

Il board del Calendario per la Vita, costituito da diverse società scientifiche, ha redatto delle raccomandazioni per la campagna di vaccinazione anti-Covid per l’autunno-inverno 2023
di V.A.