Un nuovo sistema di intelligenza artificiale estrae dati numerici da testi accademici, liberando i ricercatori da compiti di routine
Il framework Quinex struttura automaticamente i dati quantitativi ed è progettato per aiutare a gestire la crescente mole di dati
Annunci
I numeri sono il linguaggio della scienza, ma negli articoli di ricerca sono spesso nascosti nel testo e difficili da analizzare. I ricercatori della Jülich hanno sviluppato un sistema di intelligenza artificiale che identifica automaticamente questi numeri, li categorizza e li converte in dati strutturati. Il framework Quinex elimina così la necessità di un lungo lavoro manuale.
Che si tratti di ricerca sull'energia, sul clima o sui materiali, i documenti scientifici sono pieni di numeri o, più precisamente, di dati quantitativi: efficienze, temperature, costi, emissioni. Questi dati sono spesso fondamentali per migliorare i modelli o identificare le tendenze. Allo stesso tempo, il numero di pubblicazioni scientifiche è in rapida crescita. Per molte domande di ricerca, oggi è praticamente impossibile valutare manualmente tutte le pubblicazioni pertinenti: il tempo e le risorse necessarie sarebbero enormi.
Il framework Quinex ("Quantitative Information Extraction"), sviluppato dai ricercatori di Jülich, si basa su modelli linguistici e automatizza questo processo: L'intelligenza artificiale identifica i valori numerici, li assegna alle unità di misura appropriate e riconosce cosa è stato misurato, quando, dove e come. In questo modo, una frase come "Per il 2025 si ipotizzano livelli di efficienza compresi tra il 63 e il 71%" viene trasformata in un set di dati strutturato contenente tutte le informazioni contestuali rilevanti, dall'anno e dal metodo di misurazione alla fonte.
IA aperta ed efficiente
A differenza di molte soluzioni di AI proprietarie, Quinex si basa interamente su modelli linguistici aperti, relativamente piccoli e quindi efficienti. Questi sono stati specificamente addestrati per riconoscere e classificare le informazioni quantitative nei testi scientifici. Rispetto a sistemi simili, Quinex fornisce risultati più precisi, cattura le informazioni contestuali in modo più sfumato e tiene conto anche delle caratteristiche implicite.
Nonostante le dimensioni compatte, Quinex raggiunge un'accuratezza di riconoscimento (F1) di circa il 98% per i numeri e le unità associate, e di circa l'87 e l'82% per la classificazione di proprietà ed entità quantificate. Questi alti tassi di precisione sono stati raggiunti grazie a set di dati di addestramento appositamente creati e a miglioramenti metodologici.
"Volevamo sviluppare uno strumento potente, ma anche trasparente ed efficiente dal punto di vista delle risorse", spiega il Dr. Jann Weinand, responsabile del Dipartimento Scenari Integrati di Jülich System Analysis. "Quinex rende l'intelligenza artificiale più accessibile per l'analisi dei dati in ambito scientifico".
Un test pratico di successo
Per testare l'idoneità pratica di Quinex, il sistema è stato applicato a migliaia di abstract scientifici di vari settori. Ha estratto con successo dati sui costi di produzione dell'elettricità per varie tecnologie energetiche, sul massimo assorbimento di ossigeno negli esseri umani, sulla magnitudo e sulla localizzazione dei terremoti e sulle lacune di banda dei materiali fotovoltaici.
I valori ricavati automaticamente corrispondono perfettamente ai rispettivi dati di riferimento. Ciò dimostra che Quinex è adatto ad analizzare grandi volumi di letteratura accademica in un'ampia gamma di campi di ricerca e a ricavarne tendenze affidabili.
Nuove prospettive per la ricerca
"I modelli linguistici aprono nuove prospettive per la scienza e aiutano a mantenere una visione d'insieme di interi campi di ricerca", afferma l'autore principale Jan Göpfert. "Consentono di effettuare ricerche automatizzate sulla letteratura, di creare database di ricerca strutturati in modo uniforme e di effettuare analisi delle tendenze che rivelano tempestivamente gli sviluppi della scienza e della tecnologia".
"Il nostro obiettivo è quello di sollevare i ricercatori dal lavoro di routine", afferma il Dr. Patrick Kuckertz, responsabile del Research Data Management Group. "Quinex è stato progettato per aiutarli a raggiungere più rapidamente le intuizioni e a gestire la crescente mole di dati in ambito scientifico".
Limiti e miglioramenti futuri
Quinex non è del tutto privo di errori, ma la trasparenza fa parte del suo design. "Il sistema riconosce i numeri e le unità di misura in modo molto affidabile", afferma Jan Göpfert. Poiché sono presi direttamente dal testo, non possono essere "allucinati". Tuttavia, a volte si verificano interpretazioni errate, ad esempio quando i riferimenti importanti sono sparsi nel testo".
Pertanto, Quinex rimane uno strumento che supporta le persone, ma non le sostituisce. "Raccomandiamo di usare Quinex quando informa e alleggerisce i ricercatori, ma la responsabilità di interpretare i risultati rimane loro", afferma Göpfert. Ogni numero riconosciuto può essere ricondotto alla sua fonte e, ove possibile, viene evidenziato nel testo originale.
Il team sta lavorando per sviluppare ulteriormente Quinex con ulteriori set di dati e modelli specifici per il dominio, rendendolo ancora più efficiente e flessibile per adattarsi alle varie esigenze di ricerca.
Benvenuti nella collaborazione aperta
Il Forschungszentrum Jülich rende disponibile Quinex come progetto open-source.
L'obiettivo è quello di dare ai ricercatori di tutto il mondo l'opportunità di testare, espandere e adattare il sistema ai propri settori, dalla ricerca energetica alla chimica e alla biomedicina.
Nota: questo articolo è stato tradotto utilizzando un sistema informatico senza intervento umano. LUMITOS offre queste traduzioni automatiche per presentare una gamma più ampia di notizie attuali. Poiché questo articolo è stato tradotto con traduzione automatica, è possibile che contenga errori di vocabolario, sintassi o grammatica. L'articolo originale in Inglese può essere trovato qui.