Laboratori

Descrizione delle attività del COSME, della tipologia dei laboratori, del server, dei prototipi di ricerca semantica sperimentati.

Il COSME è strutturato presso il Dipartimento di Scienze Politiche “Jean Monnet” dell’Università degli Studi della Campania “Luigi Vanvitelli” e ha attivato due laboratori (il primo interno al Dipartimento, il secondo interno alla Reggia di Caserta). Possiede inoltre un proprio server (è attivo uno specifico sito) in rete con i due laboratori su indicati e con il Ministero dei Beni e delle Attività Culturali e del Turismo.

I laboratori sono dotati di strumenti che permettono la digitalizzazione di grandi archivi cartacei, la messa in rete dei materiali digitalizzati e la conservazione dei materiali in digitale. Comprendono:

  • 10 Postazioni di Lavoro per la digitalizzazione e lo sviluppo dislocate nei locali del Dipartimento di Scienze Politiche della SUN e nei locali dell’Archivio della Reggia di Caserta, complete di strumenti di scannerizzazione e stampa ad alta risoluzione;
  • 4 Sistemi Server (4 Xeon E5, 64 GB Ram, 500 GB Storage Raid 1);
  • 3 Sistemi Server per il portale (2 Xeon E5, 128 GB Ram, 500 GB Storage Raid 5);
  • Server Disks per la Archiviazione, per un totale di 20 Tbyte in RAID 5 + Raid 1
  • 10 Gbit/s di banda dedicata verso nodo GARR di Caserta (100 Gb/s sulla rete GARR);
  • Server Blade HP CS250 per la creazione di Server e Storage Virtuali in ambiente Cloud. Configurato in alta affidabilità per l’esportazione di risorse di memorizzazione virtuali.
  • Storage Server affidabile per un totale di 12TB di capacità effettiva;
  • unità di Back Up Dati: 20 TB su supporto magnetico, + Back Up on demand su supporto ottico.
  • 10 Postazioni Mobili di lavoro per la acquisizione dei documenti cartacei negli archivi;
  • 2 Storage Server affidabili per aumentare la capacità di storage;
  • 1 Sistema Server ad alte prestazioni da rack per la realizzazione del sistema di presentazione.

Queste attività comprendono la digitalizzazione, l’analisi e la memorizzazione di materiale di archivio cartaceo, l’archiviazione e la conservazione delle fonti digitali.

Le attività di digitalizzazione prevedono l’acquisizione in digitale dei documenti di interesse archivistico/storico. L’acquisizione avviene tramite l’utilizzo di apparati fotografici ad alta risoluzione o di appositi scanner piani, a seconda del grado di conservazione e del formato del documento da acquisire.

A seconda del formato e dello stato del documento, vengono applicati opportuni filtri di trattamento e compressione di immagini. Nel caso si tratti di testo, si provvede all’identificazione del testo con diversi approcci OCR.

Il documento digitalizzato viene inserito in una “teca digitale”, conforme a diversi standard nazionali ed internazionali (MAG, Dublin-Core, NIERA, ICCU, LOD-LAM, Europeana etc.).

L’obiettivo è quello di rendere gli oggetti (digitali) archiviati interoperabili con i vari standard di archiviazione digitale presenti in letteratura e presentati dai vari organismi di standardizzazione.

I documenti digitalizzati e le teche stesse vengono inserite in repository digitali ad alta affidabilità, e degli stessi viene regolarmente prodotta una copia di back-up su supporto magnetico e ottico.

I repository possono essere oggetto di ricerca dei documenti in essi memorizzati. Le ricerche vengono rese possibili dai metadati archivistici accoppiati ad ogni documento.

Il sistema di Archiviazione e di Annotazione verrà offerto utilizzando le recenti architetture Cloud. In questo modo verranno offerti, a chi ne fa richiesta, dei servizi Cloud per:

  1. La creazione e l’utilizzo di storage virtuali per la conservazione a norma, con determinate qualità del servizio (alta affidabilità, resiliency, performance). Gli enti e gli utenti che ne faranno richiesta, avranno a disposizione un sistema di memorizzazione trasparente, simile a prodotti come Dropbox o Microsoft One, che sia conforme con le norme di conservazione digitale e con le qualità del servizio richieste,
  2. La creazione di teche digitali per l’Archiviazione a Norma
  3. L’annotazione dei documenti archiviati, sia con informazioni d’archivio, che relative al contenuto dei documenti.
  4. La gestione di un Servizio a richiesta di creazione di supporti ottico-magnetici per la migrazione fisica dei dati verso altri sistemi di archiviazione.
  5. La Ricerca semantica dei documenti rispetto alle informazioni annotate,
  6. Presentazione dei reperti archiviati, e correlazione con altre fonti di informazioni (dati GIS, dati geografici, territoriali, wikipedia, social network etc.)

Le annotazioni semantiche del materiale d’archivio avviene a più livelli e tramite l’utilizzo di ontologie basate su OWL.

Il primo livello, quello di archivio, contiene le annotazioni semantiche relative:

  • alle informazioni archiviazione (autori, archivisti, data e luogo della stesura originale, data e luogo dell’archiviazione, descrizione dell’Archivio in cui sono stati conservati i documenti etc.);
  • alla descrizione del loro contenuto.

La descrizione del dominio di interesse con cui annotare il contenuto dei documenti viene sviluppato utilizzando ontologie in logica OWL, tramite l’ausilio di strumenti software open source come Protege.

Per l’annotazione dei documenti digitalizzati, si utilizza un software sviluppato all’interno delle attività del laboratorio che produce documenti esterni a quello digitalizzato, contenente tutte le informazioni semantiche relative al suo contenuto.

I documenti digitalizzati vengono accoppiati alle relative annotazioni direttamente sul repository dei documenti archiviati.

Al fine di sperimentare nuove tecniche di analisi dei contenuti dei documenti, si è proceduto a sviluppare e sperimentare una metodologia di analisi semantica basata su analogie e metafore.

Questa metodologia consiste nella definizione di più domini di interesse e nella definizione di regole metaforiche e di analogia che correlano elementi di una ontologia con un’altra.

In tal modo, è possibile ritrovare correlazioni tra informazioni nascoste (ovvero difficili da ricavare) all’interno dei documenti digitalizzati, non ragionando direttamente sul dominio di interesse dei documenti archiviati, ma ragionando sui domini correlati tramite metafore od ontologie.

I due laboratori della struttura stanno realizzando tre prototipi, aperti ai Paesi europei, di digitalizzazione e messa in rete di grandi archivi: sull’Archivio del Sito Reale di S. Leucio; sulla cartografia dei Siti Reali borbonici; sul percorso teorico che porta alla costruzione delle ontologie (realizzato da studiosi di scienze umane e da ingegneri informatici).

I primi due prototipi sono dei dimostratori di come si applica la ricerca semantica, per la costruzione delle ontologie, su singoli archivi; l’ultimo, invece, è la ricerca teorica che si propone per i Paesi europei che aderiscono agli standard di Europeana. È la storia di tre grandi archivi europei, due dei Borbone ed uno dei Savoia, e di come sono stati studiati (con approcci interdisciplinari fra i diversi settori delle scienze umane) per approdare ad un popolamento dati basato su un linguaggio semantico comprensibile agli ingegneri informatici (quello dei linguaggi retorici e delle metafore). Poi la mappa delle metafore emerse, il frutto del lavoro degli umanisti, è stata trasformata in “ontologie” dagli ingegneri informatici.

Estensione delle attrezzature del laboratorio

Il Laboratorio COSME possiede cinque server per la prototipazione di servizi di archiviazione ad alte prestazioni (quadriprocessori Xeon, 64 GB di RAM); 6 workstation per lo sviluppo e per le attvità di laboratorio. Una sala server con: 2 Unità server Disk ad alta capacità e ad alta affidabilità per le attività di storage e archiviazione; 3 Unità rack server quadriprocessori con 64 Gbyte di Ram per il providing dei servizi realizzati nel laboratorio; Una sistema HP Blade per la creazione di macchine virtuali on Demand(4 Blade ognuno con 64 Gbyte di Ram, Quadriprocessore Xeon). Una stazione di montaggio Video iMac 27; Unità di Storage ad alta affidabilità (tutte le unità in configurazione RAID 10) per un totale di 25 TB di storage. Unità esterne di storage per un totale di 30 TB.

Nel Laboratorio è presente una stampante 3D e una stazione di prototipazione elettronica (componenti elettronici, elettro-meccanici; arduino; raspberry etc.).

Sono inoltre disponibili 2 Stazioni per la scansione di documenti.

Il laboratorio mette a disposizione servizi per lo storage, la metadatazione e l’archiviazione di documenti di rilevanza storica.

Il laboratorio inoltre è provvisto di 4 postazioni per la digitalizzazione di documenti, composte ognuna da uno scanner planetario (METIS EDS GAMMA) e di una postazione per il trattamento del materiale acquisito, dotato di fotocamera ad alta risoluzione, di un sistema brevettato di illuminazione per non danneggiare i documenti da acquisire, e di un piano basculante a V per il trattamento di materiale di pregio.

Infine, il Laboratorio Cosme è dotato di due scanner robotizzati (METIS DRS 1300 DCS) e di relative workstation di controllo e gestione, dotate di ripiano con piani mobili robotizzati per il posizionamento di materiale di pregio e delicato, e di un sistema robotizzato di per la digitalizzazione, ideale per cartografie, libri antichi, pergamene, tessuti e tele dipinte, con la possibilità di acquisire anche informazioni 3D sugli elementi acquisiti.

Al fine di sperimentare diversi approcci di analisi dei documenti archivistici, una delle attività del COSME consiste nell’annotazione semantica dei documenti archiviati.

Al fine di gestire qualità del servizio di archiviazione ottimali, è stato necessario acquisire nuove strumentazioni e supporti per la memorizzazione e l’acquisizione dei reperti di archivio. Inoltre, deve essere istanziato almeno una replica del laboratorio ad una distanza di almeno 20 Km per motivi di affidabilità: la replica del laboratorio deve consentire il recupero dei dati anche con il verificarsi di eventi catastrofici nel laboratorio principale.

Le attrezzature acquisite per completare il laboratorio principale e da acquisire per allestire il laboratorio secondario devono includere l’acquisto di:

  • Infrastrutture di rete opportune per il collegamento dei laboratori (eventualmente con canali dedicati);
  • Infrastrutture di rete locali;
  • Server Disk per raggiungere capacità di memorizzazione affidabile fino ai PetaByte
  • Server Blade per la virtualizzazione di risorse e l’erogazione dei servizi Cloud
  • Server da Rack per la gestione dei dati, la prototipazione, l’implementazione, il testing e l’erogazione di servizi e funzionalità
  • La costruzione di sale server affidabili (con impianti di raffreddamento, alimentazione opportuna, insonorizzazione, protezioni dalle intrusioni etc.)
Back to Top