Archiviabilità dei siti web
Gli sviluppatori e i designer di siti web devono oggi tenere conto dei criteri di accessibilità, performance, SEO – Search Engine Optimization, compatibilità con gli standard del W3C e usabilità.
Tuttavia, tra le buone pratiche emergenti c’è quella di prendere in considerazione anche i criteri di archiviabilità dei siti web.
Per archiviabilità si intende l’insieme delle caratteristiche che i contenuti, la struttura, le funzionalità e le interfacce di un sito web devono possedere perché il sito stesso possa essere conservato e reso accessibile nel lungo periodo con gli attuali strumenti di web archiving.
Linee guida per la realizzazione di siti web archiviabili
- Strutturare il sito in conformità con i principali standard di accessibilità
L’adesione ai principali standard di accessibilità garantisce sia l’usabilità del sito per qualsiasi tipo di utente sia l’accessibilità al crawler Heritrix di Internet Archive.
Per maggior informazioni: Web Accessibility Initiative (WAI) del W3C. - Mantenere URLs stabili per contenuti importanti e reindirizzarli a nuovi URLs solo quando necessario
Mantenere i link stabili nel tempo garantisce agli utenti di poter navigare facilmente tra le diverse versioni di un sito archiviate nel tempo e di mantenere fruibili i segnalibri e i contenuti condivisi tramite social media. - Dotare il sito di Protocollo Sitemap formato XML e/o RSS
Fornire una Sitemap in formato XML e/o RSS – RDF Site Summary or Really Simple Syndication permette ai motori di ricerca di raggiungere tutte le risorse disseminate nel sito, comprese quelle la cui visualizzazione è legata all’utilizzo di applicazioni in Flash o Javascript che tendono a nascondere i link, e di indicare ai crawler degli istituti di conservazione quali contenuti includere e quali invece escludere dalla raccolta. - Associare un link HTML/XHTML ad ogni contenuto del sito (pagine, immagini, video, documenti)
Si consiglia di evitare contenuti JavaScript o Flash, soprattutto in homepage, poiché la ricostruzione di indirizzi web generati dinamicamente all’interno dei JavaScript si traduce spesso nella produzione di indirizzi web inesistenti (Errore 404). Si ricorda, a questo proposito, che dal 1° gennaio 2021 Adobe non supporta più la tecnologia Flash.
Si consiglia in ogni caso di fornire anche una descrizione testuale, in HTML o XHTML, dei contenuti non testuali in modo da facilitare sia l’indicizzazione da parte del crawler che la successiva ricerca full-text nell’archivio. - Omettere l’esclusione robots.txt o limitarla alle aree non necessarie per l’archiviazione
L’esclusione, tramite robots.txt, delle directory contenenti script e istruzioni di stile e layout, che normalmente non influenza l’indicizzazione delle pagine da parte dei crawler dei motori di ricerca, potrebbe invece impedire la corretta visualizzazione nei siti archiviati di alcune risorse essenziali.
Collegando un file robots.txt ad una Sitemap XML il gestore del sito può stabilire quali contenuti includere o escludere dalla cattura da parte dei crawler.
Se si utilizza un sistema di gestione dei contenuti (CMS) open source, assicurarsi di aggiornare la configurazione dei file robots.txt affinché sia consentito l’accesso al bot di Archive-it: archive.org_bot - Evitare l’utilizzo di formati proprietari per i contenuti importanti, specialmente nella homepage
L’utilizzo di standard e formati aperti garantisce l’accessibilità dei contenuti sul lungo periodo, semplificando il processo di archiviazione e di ri-distribuzione dei contenuti da parte degli istituti di conservazione.
Assicurarsi quindi che i principali contenuti siano pubblicati in formati aperti consolidati, ben documentati e che, in tutti i casi in cui sia possibile, siano rilasciati tramite licenze Creative Commons. - Limitare l’utilizzo di contenuti inclusi in siti di terze parti
Dove possibile, assicurarsi che gli allegati video, audio, ecc…, siano incorporati all’interno del proprio sito o della propria pagina, che non siano quindi inclusi esclusivamente in siti di terze parti: i software utilizzati per la raccolta non sono infatti sempre in grado di associare i contenuti appartenenti a siti esterni al sito in cui questi sono utilizzati. - Utilizzare indirizzi web univoci che contengano informazioni sullo stato dei contenuti
Se il proprio sistema di gestione dei contenuti (CMS) lo consente, configurarlo in modo che gli indirizzi web includano la data di pubblicazione e almeno una versione troncata del titolo del contenuto.
L’utilizzo di titoli specifici della pagina e di elementi <META> di descrizione oltre che a migliorare la presentazione dei risultati di ricerca permette agli istituti di conservazione di definire punti di accesso e record descrittivi delle risorse. Un indirizzo web che comunica qualcosa sul contenuto della risorsa fornisce ulteriori indizi che in caso di scomparsa possono essere utilizzati per individuarne la nuova posizione ed eventuali versioni archiviate precedentemente sconosciute.
Assicurarsi, inoltre, di riportare la data di pubblicazione o ultimo aggiornamento tramite intestazione HTTP “Last-Modified” in modo da conferire valore probatorio ai contenuti e aiutare gli utenti a comprendere il contesto temporale in cui sono stati pubblicati.
La configurazione dei server Web affinché restituiscano codici di stato HTTP univoci e affidabili faciliterà il rilevamento e la riduzione al minimo delle richieste superflue da parte dei crawler, migliorando l’interoperabilità del sito sia da parte degli utenti che da parte di motori di ricerca. - Segnalare tipo di supporto e di codifica dei caratteri
Indicare all’interno dell’HTTP header, tramite un meta tag HTML “Content-Type” o una dichiarazione “doctype” XML, il tipo di codifica da utilizzare per la corretta visualizzazione dei contenuti: in questo modo, il browser sarà in grado di comprendere il contenuto delle pagine facilitando il processo di indicizzazione.
Segnalare il tipo di supporto aiuta inoltre il browser a capire quali file elaborare direttamente e quali invece delegare ad altre applicazioni di supporto.
Validatore
Si segnala la possibilità di utilizzare il validatore ArchiveReady per verificare la rispondenza del proprio sito ai criteri di archiviabilità.
Fonti e link utili
- EU Web Archive – Guidelines to make archivable websites
- Columbia University Libraries – Guidelines for preservable websites
- Library of Congress – Creating Preservable Websites
- Princeton University Library – Guidelines for Designing Preservation-Friendly Websites
- Stanford Libraries – Archivability
- UKWA – UK Web Archive