Web archiving - Biblioteca Nazionale Centrale di Firenze

Il progetto

I siti web e i documenti in essi contenuti sono considerati oggetti digitali “effimeri”: chiunque, infatti, navigando sul Web ha fatto esperienza dei cosiddetti “link rotti”, vedendosi restituire l’errore 404.

È però altrettanto indubbio che essi siano una fonte ormai imprescindibile per la storia e la cultura contemporanee.

Per questo motivo, nel 2018 la BNCF, nell’ambito del più ampio servizio di conservazione e accesso a lungo termine alle pubblicazioni digitali, ha avviato un programma di Web archiving, in maniera analoga e complementare a quanto già fanno le grandi istituzioni della memoria del resto del mondo.

Sulla base delle previsioni normative della legge sul “Deposito legale dei documenti di interesse culturale destinati all’uso pubblico” (L. 106/2004 e D.P.R. 252/2006), vengono raccolti in via prioritaria:

documenti e siti che garantiscono la continuità delle collezioni già avviate, anche su supporti e mediante tecnologie tradizionali;
documenti e siti concernenti la produzione scientifica delle università, dei centri di ricerca e delle istituzioni culturali;
documenti e siti elaborati e messi in rete da soggetti pubblici.

Per la raccolta e l’accesso ai siti archiviati, la Biblioteca si avvale della piattaforma Archive-it.

Fatte salve particolari esigenze, la raccolta viene effettuata di norma un paio di volte all’anno.

Come aderire

In Italia, il deposito legale dei documenti diffusi tramite rete informatica non è obbligatorio, pertanto l’adesione al programma è su base volontaria.

Per aderire è necessario inviare una mail a bnc-fi.magazzinidigitali@cultura.gov.it e, solo successivamente ad un positivo riscontro sulla archiviabilità delle risorse, compilare l’apposito form online.

La Biblioteca si riserva successivamente di contattare gli enti e le istituzioni aderenti per definire l’opportunità della raccolta e verificarne i requisiti tecnici.

Requisiti tecnici per la raccolta

Per poter effettuare la raccolta automatica (harvesting), i siti devono:

consentire l’accesso al crawler di Archive-it: archive.org_bot;
laddove sia configurato il protocollo di esclusione dei robots.txt, prevedere un’apposita eccezione per lo stesso bot.

È, inoltre, consigliabile:

raccogliere in un’unica pagina e/o directory del sito le pubblicazioni di interesse culturale (es. “Pubblicazioni” o in sottosezioni uniformi es. “Mobilità > “Documentazione”; “Servizi sociali > “Documentazione”), non solo per facilitarne la ricerca e l’accesso da parte dei normali utenti del sito, ma anche per velocizzare le attività di selezione, raccolta e metadatazione del materiale ai fini della conservazione.
È possibile anche l’uso del Protocollo Sitemap per indicare, con maggiore precisione, al crawler di Archive-it quali sono le pagine utili per la scansione;
nominare in maniera coerente i file rispetto al contenuto e/o ad altra documentazione cui sono legati (es. fascicoli diversi di una stessa rivista, numeri di una collana…);
non pubblicare gli stessi file in parti diverse del sito ma prediligere i link interni.

Limiti alla cattura

L’harvesting di siti o sezioni di sito ad accesso limitato è possibile se vengono fornite alla BNCF le credenziali; l’harvesting non può invece operare se il sito fa uso di CAPTCHA.
I siti e/o le parti di sito realizzati in Flash e Javascript che, notoriamente, sono difficilmente indicizzabili dai motori di ricerca che non riconoscono linguaggi diversi dall’HTML, per lo stesso motivo non possono essere oggetto di raccolta con le attuali tecnologie. Se ne sconsiglia l’uso.
I documenti per la cui visualizzazione è previsto un viewer integrato nel sito (es. Sfogliami.it, PressReader ecc…), anche se vengono raccolti, non sono quasi mai visualizzabili con gli attuali sistemi di replay di Archive-it.
Qualora per ragioni legati alla facilità di fruizione di questi oggetti non sia possibile o auspicabile dismettere tali piattaforme, bisognerà prevedere la pubblicazione sul sito anche di una versione scaricabile dei documenti o una diversa modalità di deposito.

Archiviabilità dei siti web

La Biblioteca ha elaborato un elenco di criteri per l’Archiviabilità dei siti web, ispirandosi alla buone pratiche diffuse dagli “Istituti della memoria” di tutto il mondo.

I criteri diverranno prescrittivi al momento dell’entrata in vigore del regolamento sul deposito legale dei documenti diffusi tramite rete informatica.

Accesso alle collezioni

I siti archiviati sono stati organizzati collezioni tematiche, all’interno della più ampia Collezione BNCF di Archive-it:

Al momento della compilazione del form per la richiesta di adesione al servizio, i titolari dei siti web possono scegliere se consentire l’accesso pubblico da qualsiasi postazione online o l’accesso ristretto dalla sola rete interna della BNCF.

Link utili

Contributi online in italiano

La lista seguente è assolutamente parziale e in continuo accrescimento.

2023

Storti, Chiara (2023). “Resource not found”: cultural institutions, interinstitutional cooperation and collaborative projects for web heritage preservation. JLIS.It, 14(2), 39–52. https://doi.org/10.36253/jlis.it-533
Allegrezza, Stefano. 2023. “Web e social media come nuove fonti per la storia.” Umanistica Digitale, January, 137-162 Pages. https://doi.org/10.6092/ISSN.2532-8816/15665.

2022

Luigi Giungato, Memorie dal sottosuolo digitale: frontiere e prospettive del social web archiving in Agenda Digitale, 28 luglio 2022

2020
Web archiving e pandemia

Lorenzana Bracciotti, Pandemia e web archiving. Conservare le fonti online #igiornidellapandemia in Il mondo degli archivi, 2 maggio 2020
Archiviazione permanente dei siti italiani sul Coronavirus: call to action – BNCF, 31 marzo 2020

2019

Chiara Storti, Web archiving, “sfida culturale”: il servizio della Biblioteca Nazionale Centrale di Firenze in Forum PA, 12 giugno 2019
Costantino Landino, Lina Marzotti, Perché dovremmo pensare al web archiving in Forum PA, 20 marzo 2019
Lorenzana Bracciotti, Il Web Archiving. Conservazione e uso di una nuova fonte in OS – Officina della Storia, 10 gennaio 2019

2018

Costantino Landino, Strumenti per il Web Archiving: alcune soluzioni in Il mondo degli archivi, 6 luglio 2018

2006

Bergamin, Giovanni. 2006. “La raccolta dei siti web: un test per il dominio ‘punto it.’” DigItalia 2 (0): 170–74. http://digitalia.sbn.it/article/view/306.

Contatti

È sempre possibile scrivere o telefonare a:

Chiara Storti | Resp. Magazzini Digitali e Web Archiving
bnc-fi.magazzinidigitali@cultura.gov.it
chiara.storti@cultura.gov.it
tel. 055 24919 73

Il progetto

Come aderire

Requisiti tecnici per la raccolta

Limiti alla cattura

Archiviabilità dei siti web

Accesso alle collezioni

Link utili

Contributi online in italiano

Contatti

Informazioni e orario dei servizi

Apertura biblioteca

Rilascio tessere

Chiedi al bibliotecario

Cerca un argomento su BNCF