banner
Casa / Notizia / Come stabilire e mantenere un set di dati multimodale per la ricerca sugli animali utilizzando DataLad
Notizia

Come stabilire e mantenere un set di dati multimodale per la ricerca sugli animali utilizzando DataLad

Jul 08, 2023Jul 08, 2023

Dati scientifici, volume 10, numero articolo: 357 (2023) Citare questo articolo

1 Altmetrico

Dettagli sulle metriche

La condivisione di dati, strumenti di elaborazione e flussi di lavoro richiede servizi di hosting di dati aperti e strumenti di gestione. Nonostante le linee guida FAIR e la crescente richiesta da parte di agenzie di finanziamento ed editori, solo pochi studi sugli animali condividono tutti i dati sperimentali e gli strumenti di elaborazione. Presentiamo un protocollo passo passo per eseguire il controllo della versione e la collaborazione remota per set di dati multimodali di grandi dimensioni. È stato introdotto un piano di gestione dei dati per garantire la sicurezza dei dati oltre a una struttura omogenea di file e cartelle. Le modifiche ai dati sono state tracciate automaticamente utilizzando DataLad e tutti i dati sono stati condivisi sulla piattaforma di dati di ricerca GIN. Questo flusso di lavoro semplice ed economico facilita l'adozione della logistica dei dati FAIR e dei flussi di lavoro di elaborazione rendendo disponibili i dati grezzi ed elaborati e fornendo l'infrastruttura tecnica per riprodurre in modo indipendente le fasi di elaborazione dei dati. Consente alla comunità di raccogliere set di dati acquisiti e archiviati in modo eterogeneo non limitati a una specifica categoria di dati e funge da modello di infrastruttura tecnica con un ricco potenziale per migliorare la gestione dei dati in altri siti ed estendersi ad altre aree di ricerca.

La gestione e la condivisione dei dati richiedono le migliori pratiche recentemente introdotte per la risonanza magnetica umana1,2. Nella nostra esperienza, la maggior parte dei laboratori si affida all’archiviazione dei dati non standardizzata su dischi rigidi locali o unità di rete con una gestione degli utenti e una capacità di backup insufficienti. Nonostante il fatto che solo una minoranza degli studi sulla risonanza magnetica utilizzi piccoli animali, è allarmante che su OpenNeuro, una piattaforma di condivisione dati di neuroimaging3 ampiamente utilizzata, solo il 3% dei set di dati contenga dati di topi o ratti. Allo stesso modo, su un’altra popolare piattaforma di condivisione dati, non specifica per il neuroimaging, Zenodo4, solo il 30% circa dei set di dati MRI proviene da topi o ratti. Inoltre, è sorprendente e contrario ai principi FAIR5, se nella maggior parte di questi set di dati di neuroimaging vengono forniti solo i dati di imaging. Ciò esclude gran parte dei dati di accompagnamento, ad esempio i file di microscopia utilizzati per la convalida incrociata in vivo. Abbiamo inoltre individuato una chiara mancanza di guide passo passo o di routine automatizzate necessarie per riprodurre i dati elaborati. Questi esempi sottolineano i rapporti precedenti6 secondo cui la condivisione dei dati sui piccoli animali è tutt’altro che comune e che non esiste alcuna standardizzazione in termini di acquisizione, archiviazione e condivisione dei dati. Se i dati non vengono condivisi e quindi non sono disponibili per il riutilizzo, come nel caso del 93% delle pubblicazioni biomediche ad accesso aperto7, ciò contrasta fortemente anche con il principio delle 3 R di ridurre al minimo il numero di esperimenti sugli animali8. Pertanto, rimane molto difficile confrontare gli studi tra diversi laboratori, il che contribuisce alla crisi di riproducibilità9, e gli studi su piccoli animali (neuroimaging) non fanno eccezione10.

Prevediamo un cambiamento verso le condizioni di buona pratica scientifica e i principi FAIR – Findable, Accessible, Interoperable, Reusable5 e Open Science2 per migliorare l’affidabilità e il riconoscimento degli studi sugli animali. Il nostro obiettivo era creare un approccio facilmente applicabile per la creazione di un set di dati multimodale che fornisca accesso a dati grezzi ed elaborati, metodi, risultati e alla loro provenienza. Una corretta gestione dei dati di ricerca (RDM), come è sempre più richiesta anche dalle agenzie di finanziamento e dagli editori, è fondamentale per soddisfare questi standard2,11,12.

Qui descriviamo la nostra strategia per l'organizzazione dei dati, la raccolta dei metadati e il monitoraggio dei dati/analisi utilizzando tre strumenti consolidati: il nostro database relazionale13, la piattaforma dati GIN (servizi di infrastruttura G-Node, https://gin.g-node.org) e il software di gestione dei dati di ricerca DataLad14. Il database viene utilizzato per raccogliere tutti i metadati sperimentali sulla cronologia completa degli esperimenti sugli animali longitudinali e multimodali, inclusi risonanza magnetica, istologia, elettrofisiologia e comportamento. GIN e DataLad sono entrambi basati su Git, un popolare sistema di controllo delle versioni, e su git-annex, che estende le capacità di Git, soprattutto per quanto riguarda la gestione di file di grandi dimensioni. GIN è un servizio di gestione dei dati open source basato sul Web con varie funzionalità per la gestione collaborativa dei dati, ad esempio controllo delle versioni integrato, accesso sicuro, identificatori di dati persistenti per la pubblicazione (DOI), indicizzazione automatica e convalida dei dati. DataLad è un software di gestione dati pensato per supportare le varie fasi di sviluppo degli oggetti digitali. È importante sottolineare che DataLad può essere visto come una sovrapposizione su strutture e servizi di dati esistenti: il tracciamento dei file non modifica i file stessi o la posizione da cui possono essere recuperati dagli strumenti di elaborazione dei dati.

/p>

/p>