home | search | map | contact us | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Path: Home | Publications | Manuale | Indice | Digit fugit ovvero osservazioni sulla conservazione del Web |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Manuale per la qualità dei siti Web pubblici culturali |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
Terabytes |
|
Surface Web |
167 |
Deep Web |
91.850 |
440.606 |
|
Instant messaging |
274 |
TOTALE |
532.897 |
Fonte: How much information 200316 |
È difficile percepire correttamente le quantità espresse da queste cifre. Questi dati hanno maggiore evidenza se confrontati, ad esempio, con quelli calcolati (immaginando un’ipotetica completa digitalizzazione) per la Library of Congress, che è la maggiore tra le biblioteche esistenti al mondo:
«La dimensioni di 20-terabyte che vengono comunemente attribuite alla Library of Congress, per quanto ne sappia, derivano dall’aver assunto che la LC ha 20 milioni di libri e che ciascuno di essi richieda 1 MB. Naturalmente la LC è composta da molti altri materiali, affianco al testo stampato, e questi materiali potrebbero esigere molto spazio in più:
1. tredici milioni di fotografie, le quali seppure fossero compresse in files JPG da 1 Mb ciascuno, potrebbero richiedere 13 TB;
2. i 4 milioni di mappe raccolte nella Geography Division potrebbe essere scansionate e richiedere almeno 200 TB;
3. la LC possiede oltre 500 mila film, calcolando 1 GB per ciascuno questo potrebbe significare 500 TB (molti film non sono a colori);
4. la massa maggiore dovrebbe esse costituita dai 3,5 milioni di registrazioni sonore le quali, considerando un CD per ciascuna di queste, significherebbe almeno 2.000 TB.
Tutto ciò porta il peso totale ad almeno 3.000 TB17».
Quantità enormi di dati significa altrettanto enormi quantità di supporti di registrazione delle informazioni e loro cura sia fisica che organizzativa. Il problema della conservazione non è solo un problema quantitativo: conservare il Web significa, in primo luogo, disporre di adeguati strumenti di raccolta18, validazione della attività di raccolta (per autenticità e per completezza), selezione e scarto del materiale di base. Significa investire enormi quantità di fondi. Significa, a secondo della mission di chi effettua la raccolta (ad esempio le biblioteche nazionali o quelle orientate a finalità specifiche), delimitare un campo preciso di intervento. Questo campo nel caso delle biblioteche nazionali centrali (per lo più deputate alla conservazione della memoria nazionale) corrisponde, per quanto riguarda il Web, agli ambiti individuati dai domini nazionali (country codes top level domain). In altre parole, significa che le biblioteche nazionali centrali in Italia registreranno e conserveranno sicuramente i siti il cui CC sia .it. Rimane aperto il problema della lingua (posso avere attivato un Web site in lingua inglese su server italiano) e del server su cui risiede l’informazione (il sito in lingua italiana e con dominio .it potrebbe essere ospitato su un server nella città di Hong Kong).
In ogni caso, dal punto di vista pratico, questo significherà disporre di adeguati supporti per la memorizzazione sia che questa venga compiuta una volta per tutte sia che questa sia stata progettata ripetuta nel tempo a intervalli definiti e secondo la modalità di download (integrale o incrementale).
L’attuale situazione, caratterizzata da ampio e necessario sperimentalismo: quale metodologia di raccolta, quale livello di selezione e scarto della fonte e quali strumenti tecnologici sono da adottare ed ancora quali sono gli eventuali problemi legali legati alla registrazione di siti protetti da vincoli di copyright) vede lo svilupparsi di alcuni tentativi tra i quali il primo e più famoso tra tutti è l’Internet Archive (vedi scheda).
La storia di questi tentativi segna, comunque, la transizione da una logica di “conservazione integrale del dato” (possibile solo all’inizio dello sviluppo di Internet e del Web ma cui nessuno, nell’arco degli anni Novanta, ha posto la necessaria attenzione) a una di “selezione e catalogazione” tipica degli archivisti.
Senza una ferrea logica di selezione e scarto non è, infatti, pensabile di affrontare realisticamente il problema del salvataggio della memoria del Web.
Da un punto di vista strettamente operativo, in realtà, l’esigenza di conoscere, traversare, sondare e indicizzare i contenuti è una delle prime questioni che i motori di ricerca si sono trovati ad affrontare per dare senso compiuto e materiale elaborabile per le tecnologie di ricerca adottate da ciascun operatore.
Il problema cruciale è legato, come chiarito in precedenza, alle dimensioni del Web.
L’eterogeneità delle pagine e dei contenuti del Web trova un paragone abbastanza semplice con la smisurata produzione cartacea che ha caratterizzato la seconda parte del secolo scorso. Davide Bidussa, in un articolo pubblicato nel 2003 sul «Manifesto»19 poneva il problema della necessità di digitalizzare, al fine di garantirne la sopravvivenza dei contenuti, i materiali «documentari relativi a partiti politici» (volantini, veline, faldoni e faldoni di “fogli volanti”: tutti materiali fragili di bassa qualità e con intrinseche qualità di resistenza all’usura ed al tempo veramente limitate) per la conservazione dei quali occorre, prima ancora delle risorse economiche, la consapevolezza della necessità della conservazione messa in atto attraverso una preventiva e oculata attività di selezione e scarto.
Il Web, in fondo, esprime la stessa confusione (e la stessa difficoltà di giudizio) che è propria della stagione dei volantini e dei ciclostile. Anzi, la pubblicazione di documenti è divenuta ancora più semplice e alla portata di chiunque: pubblicazione e permanenza dell’informazione (la pagina) nel Web ha costi sopportabili pressoché da chiunque tant’è che uno dei problemi maggiormente discussi nelle comunità specialistiche è quello dell’autorevolezza e della fondatezza dei materiali e del sapere esposto nella rete.
La selezione, la raccolta e l’indicizzazione delle pagine dei siti anche se sembrano suggerire l’immagine di un monaco medioevale che seleziona tra le fonti quelle meritevoli di copia utilizzando le proprie categorie culturali e la propria sensibilità (il proprio arbitrio)20 introducono il tema dei metadati.
Si può solo accennare brevemente che una delle funzioni essenziali per archiviare il Web (e garantire, quindi la sua conservazione) è quella della descrizione codificata (utilizzando standard di riferimento accettati e condivisi) del contenuto della pagina stessa e delle informazioni “anagrafiche” relative alla pagina.
Per far questo è assolutamente raccomandato, in fase di creazione del contenuto della singola pagina web, l’utilizzo di metadati (i meta-tag) all’interno del linguaggio HTML21. Per la struttura dei metadati numerosi sono gli standard accettati e tra questi il Dublin Core Metadata Initiative22 è quello che maggiormente ha raccolto intorno a sé consensi.
In alternativa è possibile (mediante appositi software) ricavare automaticamente metadati dalle pagine e questa funzione è alla base di tutti i principali progetti di archiviazione e conservazione del Web.
I metadati esprimono, in un linguaggio strutturato e codificato, alcune caratteristiche relative all’oggetto, o alla classe d’oggetti, cui sono associati. La descrizione dei metadati (set di metadati) non è possibile in questa sede ma necessiterebbe, per la sua centralità nell’azione di archiviazione e rintracciabilità e consultabilità dei documenti di una trattazione apposita per la quale si rimanda alla ricca bibliografia esistente e, per quanto concerne la situazione italiana, al sito dell’Istituto centrale per il catalogo unico delle biblioteche italiane e per le informazioni bibliografiche (ICCU)23.
Per le tecniche di archiviazione adottate oggi si utilizzano tre sistemi: la selezione manuale, l’harvesting automatico senza selezione, l’harvesting automatico con parametrizzazione manuale.
«Nel primo caso l’intervento umano è totale, nel secondo è invece totalmente assente a vantaggio di software chiamati crawler che setacciando instancabilmente la Rete e raccolgono pagine web sotto forma d’istantanee (snapshots), nel terzo invece i crawler sono impostati per puntare su siti in precedenza selezionati come rilevanti.
Il modello che applica integralmente l’harvesting automatico viene definito a “dominio completo”. È un approccio che mira a scorrere il proprio spazio web nazionale collezionando tutto il possibile […]
Se invece lo scopo è quello di archiviare, secondo specifici criteri, definite porzioni dello spazio web o particolari risorse, si ha il modello selettivo. La selezione può basarsi sul significato, sulla qualità delle risorse oppure su particolari argomenti o anche individuando un insieme specifico di siti web»24.
Internet Archive
http://www.archive.org/
Internet Archive (IA) è una non-profit corporation la cui missione è quella di costruire una Internet digital library: «Internet Archive sta attuando una azione di prevenzione grazie alla quale – un nuovo media con un valore storico significante – è altri materiali nati digitali siano protetti dallo svanire nel passato.
Internet Archive sta costruendo una biblioteca digitale dei siti Internet così come degli altri “prodotti” culturali che siano in formato digitale. Come una biblioteca cartacea garantiamo libero accesso ai ricercatore, agli storici, agli esperti ed in generale al pubblico […] Accesso libero e gratuito al patrimonio scritto e alle altre forme di scrittura viene ritenuto essenziale per motivi educativi e per il mantenimento di una società aperta».
IA è stato lanciato nel 1996 a San Francisco per iniziativa di Alexa Research25 e di altre società (Xerox Parc, Ibm, At&t, Nec) e istituzioni americane (Library of Congress, Smithsonian, Federal Government Information Clearinghouse),
L’interfaccia utente dell’archivio che consente di prendere visione e navigare nei siti a un “tempo determinato” si chiama Wayback Machine26 ed è uno dei siti più popolari del Web.
Nell’arco di sei anni IA ha realizzato il maggiore tra gli archivi web esistente e la sua dimensione complessiva ha raggiunto (dati 2002) oltre 400 TB27. L’archivio è composto principalmente dalle pagine raccolte da Alexa Internet a partire dal 1996. Alexa Internet è una società mirata alla raccolta di snapshot dal Web per alimentare motori di ricerca. La scansione del Web è completata ogni due mesi e ciò comporta un incremento dei dati raccolti che è stimabile in 10 TB (20 per alcune fonti) per ciascun mese. I siti scansionati risultano essere più di 35 milioni.
La scansione del Web è compiuta da Alexa attraverso propri software proprietari che, diversamente dalla raccolta degli snapshot, non sono resi disponibili per IA che, attraverso propri software e fondi immagazzina, indicizza e rende pubblicamente accessibile il materiale versatole da Alexa.
National Digital Preservation Plan, Stati Uniti
Negli Stati Uniti è stata affidata al coordinamento della Library of Congress la messa a punto di un National Digital Preservation Plan (NDPP).
Al breefing di lancio del NDPP28, James H. Billington, bibliotecario capo della Library of Congress, introdusse il tema della conservazione del Web rilevando come se le tavolette d’argilla che contengono le leggi dei Sumeri e le ossa votive con l’iscrizione dei nomi dei re rimangono come evidenza di antiche civiltà, molto di quanto esiste della storia contemporanea su strutture informatiche è destinato a scomparire senza lasciare traccia.
Le considerazioni e i dati statistici contenuti nella relazione meritano alcuni commenti: «il contenuto digitale che nasce in Internet raddoppia ogni anno ma molto viene perduto appena appare; la vita media di una pagina del Web è di soli 44 giorni;circa una metà di tutti i siti web disponibili nel 1998 sono scomparsi nel giro di un anno»29.
Billington nota come molto di quanto è stato creato sul Web non è più accessibile pur essendo un materiale di primaria importanza e che, pertanto, non sia di fatto possibile un recupero integrale dell’informazione transitata nel Web.
«Stiamo vivendo il pericolo di perdere la stessa storia perché le strutture sulle quali gli storici si sono basati per secoli possono non essere più disponibili quando siano ottenuti soltanto nel fragile ed evanescente mondo digitale. Il raccogliere e preservare materiali del regno informatico coincide con la storica missione della Biblioteca per sostenere e conservare una universale documentazione di conoscenze e creatività per le future generazioni».
International Internet Preservation Consortium
http://netpreserve.org/about/index.php
La Biblioteca nazionale di Firenze, congiuntamente alle biblioteche nazionali dell’Australia, Canada, Danimarca, Finlandia; Francia; Islanda, Italia, Norvegia, Svezia nonché alla British Library (UK), alla Library of Congress (USA) ed a Internet Archive (USA) hanno concordato e riconosciuto l’importanza di una collaborazione internazionale fondando, nel 2003, l’International Internet Preservation Consortium al fine di preservare il contenuto di Internet per le future generazioni. Le attività di coordinamento del Consorzio spettano alla Biblioteca nazionale francese.
Gli obiettivi che il consorzio si pone sono:
Queste le Biblioteche e le istituzioni che prendono parte a questo progetto:
«Il Consorzio ha identificato un certo numero di obiettivi chiave che danno forma e modellano le attività:
Questi includono:
Per raggiungere questi obiettivi il Consorzio provvederà a:
I lavori del Consorzio saranno assicurati attraverso gruppi di lavoro dedicati alla definizione delle politiche, delle necessità, dei metodi, degli standard e degli strumenti necessari per l’attività di archiviazione di Internet30».
National Library of Australia
La Biblioteca nazionale australiana è stata sempre particolarmente attiva nell’ambito della gestione e conservazione dei documenti digitali tanto da considerare l’attività di digitalizzazione obiettivo prioritario. Nelle linee guida della Biblioteca nazionale australiana il termine to preserve è adottato per identificare tutte quelle fasi che includono l’archiviazione, la organizzazione, la descrizione, l’aggiornamento e la migrazione dei dati tutte compiuti per assicurare long term access31.
In particolare sono stati attivati due diversi progetti finalizzati alla conservazione delle risorse digitali, in genere, e all’archiviazione, classificazione, conservazione e rintracciabilità delle risorse in rete:
PADI (Preserving Access to Digital Information)32.
La National Library of Australia’s Preserving Access to Digital Information (PADI) si pone l’obiettivo di provvedere meccanismi che possano consentire che l’informazione in formato sia gestita con una appropriata considerazione alle esigenze della conservazione e dell’accesso, nel tempo, alle stesse fonti.
Gli obiettivi che PADI si propone sono:
PANDORA (Preserving and Accessing Networked DOcumentary Resources of Australia)33.
La finalità di PANDORA è quella di raccogliere e assicurare long-term access a pubblicazioni on line selezionate e a siti web che siano relativi all’ Australia, siano di autore Australiano con argomento socialmente, politicamente, culturalmente, religiosamente, scientificamente o economicamente rilevante per l’Australia, oppure che siano di un autore Australiano di riconosciuta autorità e che realizzi un contributo alla conoscenza internazionale.
Iniziato nel 1996, questo progetto della Biblioteca nazionale australiana si propone, quindi, di istituire un archivio digitale delle pubblicazioni elettroniche a livello nazionale. Ad oggi ha realizzato l’archiviazione di fonti in rete (periodici elettronici, siti, pubblicazioni governative) e ha sviluppato politiche di intervento e procedure per la preservazione a lungo termine delle pubblicazioni nazionali su Internet.
L’approccio adottato è quello selettivo: la decisone su cosa archiviare è demandata a tutte le agenzie che sono responsabili dei singoli settori in cui PANDORA è suddiviso.
Questi sono alcuni dati statistici relativi a quanto contenuto nell’archivio di PANDORA34.
Numero di titoli: 6.608
Numero di files: 21.117.595
Dimensione in gigabytes: 702,1
L’archiviazione dei siti web in Italia
La legge 106 del 15 aprile 2004 Norme relative al deposito legale dei documenti di interesse culturale35 dispone, al fine di conservare la memoria della cultura e della vita sociale italiana, la raccolta e la conservazione dei siti web (così come di tutte le pubblicazioni digitali) presso le Biblioteche nazionali centrali di Roma e di Firenze.
È una legge che coglie, probabilmente, impreparati gli uffici pubblici destinati a essere gli esecutori materiali della norma e causa un’ondata di dubbi sulle modalità pratiche di “deposito” dei siti.
Le norme attuative sono demandate a un regolamento che la legge prevede debba essere emesso entro sei mesi dalla data di entrata in vigore della legge (quindi entro il 15 ottobre 2004) ma che ancora non è stato emesso36, probabilmente a causa della difficoltà di individuare modalità tecniche di attuazione in un contesto in cui non sono state compiute adeguate sperimentazioni e individuate, quindi, regole tecniche, modalità di registrazione, supporti di conservazione ecc.
Non secondaria appare l’osservazione che occorre comprendere anche quali siano, dal punto di vista della protezione del diritto d’autore e della riservatezza, i limiti che le eventuali copie del sito debbono rispettare: il sito potrà non essere totalmente pubblico e necessitare di coppie di username/password per l’accesso a zone riservate (private) con rischio di accesso, copia e archiviazione di dati anche “sensibili” e comunque protetti da vincoli37.
Un’indicazione operativa a proposito dell’entrata in funzione come deposito di documenti digitali giunge dalla Biblioteca nazionale centrale di Firenze (BNCF) che indica nel consorzio IIPC (consorzio cui la Biblioteca aderisce) il punto di riferimento per la elaborazione di metodi di archiviazione38.
Non essendo ancora stato emesso il regolamento attuativo della legge citata, al fine di scongiurare l’accumulo di materiale ricevuto in mancanza di una definizione di una qualsiasi procedura, la BNCF ha pubblicato questo comunicato: «La legge prevede che venga emanato entro sei mesi un regolamento di applicazione, ma si può anticipare che le biblioteche nazionali stanno cooperando a livello internazionale e che concordemente indicano nell’harvesting – ossia nella raccolta delle pagine web effettuata tramite un software (crawler) – la modalità più efficiente e sostenibile di deposito. In pratica con questa tecnologia chi pubblica siti web liberamente accessibili in rete non deve ‘depositare’ assolutamente niente: è il crawler gestito dall’istituzione depositaria che provvede a “raccogliere” il sito web»39.
Macro e micro archiviazione di siti web
In generale l’archiviazione dei siti web può essere eseguita secondo due diversi approcci: macro e micro40.
La macro archiviazione è eseguita con l’intento di archiviare (in maniera selettiva e non) in tutto o in parte il patrimonio culturale nazionale e internazionale:
La microarchiviazione, invece, è compiuta con l’obiettivo spesso di conservare un sito web oggetto di studio (qualunque ne sia la motivazione):
Nelle more dell’approvazione di un’attività centrale nazionale di archiviazione di siti e risorse web occorre che webmaster e responsabili della politica di gestione dei singoli siti si pongano consapevolmente una serie di quesiti sul destino delle risorse da loro gestite e sulla conservazione nel tempo di queste stesse risorse.
La logica operativa non potrà che essere quella della microarchiviazione proprio perché le risorse tecniche ed economiche dei singoli istituti talvolta sono insufficienti e i progetti “globali” sono promossi e gestiti dai livelli superiori delle amministrazioni.
Allo stato attuale una politica di backup dei siti è finalizzata a garantire la sopravvivenza dei siti stessi alle, peraltro continue, falle dell’hardware (server che vanno in crash con regolare frequenza) e come antidoto alle altrettanto continue incursioni di hacker, qualsiasi sia la motivazione da loro esibita.
Effettuare regolari copie del sito e conservare copia (integrale o incrementale) del sito stesso con un preciso marcamento temporale è attività che non viene praticata da molti.
È vero che l’evoluzione continua del Web (quando il sito sia costantemente presidiato e quindi costantemente aggiornato) costringe a individuare una qualche regola per definire un calendario di azioni di copia.
A questo proposito si può prendere ad esempio Internet Archive che ha scansionato (e registrato) il Web a intervalli irregolari ma comunque con un ritmo che ha sempre preveduto ben più di un passaggio mensile.
È chiaro come l’attività di copia risulti talvolta essere complessa perché da eseguire, contemporaneamente su fonti diverse. È questo il caso di tutti i siti che siano basati su basi di dati dove, evidentemente, la copia della base di dati stessa è la condizione necessaria per il funzionamento della copia.
Talvolta pagine statiche e/o dinamiche, le basi dei dati e comunque le fonti informative sono situate su server diversi. Questo complica non poco le attività di copia (backup).
Ometteremo in questa sede tutte le osservazioni relative alla conservazione dei supporti fisici su cui le informazioni stesse sono registrate, non esentandoci, però, dal notare come la conservazione di CD, DVD, nastri e tutti i supporti conosciuti sia un terreno minato ancora poco esplorato. Aver registrato una copia del sito su un singolo CD non può che far incrociare le dita sulla tenuta dello stesso CD nel tempo (brevissimo) a causa della vulnerabilità “magnetica” del supporto, della durata talvolta imprevedibilmente breve della pellicola superficiale del CD stesso, del mantenimento della possibilità di lettura del contenuto nel tempo a causa della continua modificazione e sostituzione dei software.
Il refresh del dato41 si pone, a fianco della conservazione brutale dei bit, come elemento centrale in questo discorso.
Potrò rischiare di avere un dato perfettamente conservato ma, al contempo, non avere la chiave di lettura della modalità di organizzazione del dato stesso, quando questo non sia stato registrato in maniera esclusivamente testuale e quindi, sostanzialmente privo di organizzazione.
Una base di dati di tipo relazionale, un disegno eseguito in grafica vettoriale, un’immagine sono difficilmente “testualizzabili”, è ovvio. Ma non c’è in generale la consapevolezza che occorrono procedure di conservazione del software o di migrazione di dati (senza perdita di parte di questi) tra differenti piattaforme hardware e software.
Non è semplice fornire indicazioni nel campo anche perché questo non è, ovviamente, un problema affrontabile a scala personale o di istituzione ma richiede un impegno da parte della comunità dei ricercatori (università, enti di ricerca, centri di eccellenza).
Nel frattempo, la registrazione su supporti magnetici, magneto-ottici ecc. dei dati e la loro archiviazione eseguita con attenzione anche alle condizioni ambientali della conservazione stessa è un passo imprescindibile che dovrebbe entrare nella prassi comune di gestione del sito secondo tempi e modalità che non è difficile trasformare in procedure anche di tipo obbligatorio.
1] Il titolo mutua (correggendolo…) quello della conferenza “Digits fugit. Preserving knowledge into the future”, Boston, Massachusetts (USA), 3-5 novembre 2005. La conferenza è la 33rd Annual Conference del Museum Computer Network <http://www.mcn.edu/>. Tutte le traduzioni da testi inglesi sono dell’autore.
2] Alessandro Olschki, Memorie digitali: rischio estinzione, <http://www.olschki.it/novita/memodig.pdf> (per la pubblicazione cartacea vedere i riferimenti nel file pdf).
3] Riccardo Ridi, La biblioteca digitale: definizioni, ingredienti e problematiche, «Bollettino AIB», 44 (2004), n. 3, p. 273-344.
4] Charter for the Preservation of the Digital Heritage adottata nel corso della 32a Unesco General Conference, il 17 ottobre 2003, <http://portal.unesco.org/en/ev.php-URL_ID=17721&URL_DO=DO_TOPIC&URL_SECTION=201.html>. Una traduzione italiana è stata curata dall’ICCU: Carta per la conservazione del patrimonio digitale, <http://www.iccu.sbn.it/PDF/carta_UNESCO_it.pdf>.
5] Associazione italiana biblioteche, Nuova legge sul deposito legale e documenti digitali, <http://www.aib.it/aib/commiss/bdigit/deplegdig.htm>. Per il problema, correlato, dell’IPR si rinvia al saggio di Giuliana De Francesco, in questo stesso volume.
6] Da sottolineare, in particolare, il progetto ERPANET (Electronic Resource Preservation and Access Network), <http://www.erpanet.org>. Occorre inoltre sottolineare l’anomalia dell’American Institute of Conservation (associazione dei restauratori statunitensi) che ha attivato al suo interno un Electronic Media Conservation Group con la missione dichiarata di provvedere alla conservazione della documentazione digitale e dei supporti fisici della documentazione digitale. L’azione si fonda sulla interpretazione estensiva dei principi etici del restauratore adottati dall’AIC, grazie ai quali il restauratore è tenuto ad assicurare la stabilità sia del lavoro di conservazione o restauro che della fedele registrazione di questi, qualunque ne sia il supporto.
7]. Nel 1999, infatti, in occasione di un seminario di ricerca sulla documentazione grafica di dipinti murali, tenutosi presso l’ICCROM il gruppo di lavoro WG3 (moderatori del Gruppo: Robin Letellier e Gaetano Palombo; componenti: Giancarlo Buzzanca, Elke Behrens, Stefano Casciu, Heinz Leitner, Florian Petrescu, Filippo Petrignani, Raphael Szambelan, Lori Wong) “Digital graphic documentation and data-bases: critical evaluation and comparison with conventional methods”, nel documento finale si domandava «How to censure current and future accessibility of information and take into consideration long-term compatibility of hardware and software?», individuando, poi, nell’adozione di standard documentati (di descrizione e trasferimento dati), nella manutenzione e aggiornamento di hardware e software e nell’ongoing manteinance of data gli strumenti necessari per svolgere questa azione. Vedi GraDoc, Research Seminar, Rome, 16-20 November 1999, edited by Werner Schmid, Roma: Iccrom, 2000.
8] Vedi Paola Moscati, Archeologia e informatica: fra tradizione e rinnovamento, in: Dossier “La documentazione digitale da Michelangelo a Cimabue, a cura di Giancarlo Buzzanca, Francesca Piquè, «Bollettino ICR», n. 5, luglio-dicembre 2002, p. 22-27. Contributo interessante perché attraverso la storia della rivista «Archeologia e Calcolatori», fondata nel 1990, tenta una storia delle applicazioni informatiche all’archeologia.
9] <http://www.longnow.com/10klibrary/TimeBitsDisc/index.html>. Per gli atti a stampa di questo incontro vedi Margaret MacLean, Ben H. Davis, Time and bits: managing digital continuity, Los Angeles: Getty Research Institute, 1999.
10] <http://www.longnow.com/10klibrary/TimeBitsDisc/part.html>.
11] A Ben H. Davis si deve il coordinamento del gruppo che costruì, nel 1993, il primo sito web del Getty Art and History Program (AHIP). La realizzazione si deve a Marty Harris.
12] <http://www.sciam.com/0397issue/0397kahle.html>.
13] Il rapporto tra surface Web e deep Web è tutt’ora inesplorato. Ricordiamo, a titolo d’esempio, che Google raggiunge (e indicizza) più di 8 miliardi di pagine e 880 milioni di immagini.
14] Stefano Vitali, Una memoria fragile: il Web e la sua conservazione, in: La storiografia digitale, a cura di Dario Ragazzini, Torino: UTET, 2004, p. 101-127.
15] Un terabyte equivale a circa 1100 miliardi di bytes. Si pensi, per quantificare visivamente il dato, a 1,6 milioni di CD per ciascun terabyte.
16] La tabella riporta una stima sulle dimensioni del Web curata dall’Università di Berkley. Report completo: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/printable_report.pdf>.
17] M. Lesk, How much information is there in the world?, <http://www.longnow.com/10klibrary/TimeBitsDisc/ksg.html>.
18] Un Web crawler (anche conosciuto come Web spider) è un programma che passa in rassegna il Web in un modo metodico e automatizzato. I Web crawler non mantengono soltanto una copia di tutte le pagine visitate per poi successivamente analizzarle – per esempio con un motore di ricerca – , ma le indicizzano per rendere la ricerca più veloce e precisa.
19] Un ulteriore esempio di uno stimolo a un dibattito che non si è generato all’interno degli angusti ambiti degli informatici e/o dei bibliotecari. Comunque quest’articolo causò all’interno della lista di discussione dell’Associazione italiana biblioteche (AIB) un dibattito acceso e particolarmente partecipato. Vedi: David Bidussa, Gli antichi scaffali messi online, «Il manifesto», 4 settembre 2003.
20] Sui pesanti retaggi che il Web eredita dal testo a stampa così come il testo a stampa aveva ricevuto dal libro manoscritto vedi: Riccardo Ridi, Il Web bibliotecario come incunabolo digitale, in: Riforma universitaria e rivoluzione dei media: una sfida per le biblioteche universitarie: atti del convegno internazionale, Bolzano, 28-29 settembre 2000, a cura di Franz Berger, Klaus Kempf, Firenze: Casalini libri, 2001, p. 59-72.
21] <http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4>.
22] <http://dublincore.org/>.
23] <http://www.iccu.sbn.it/>, in particolare <http://www.iccu.sbn.it/dublinco.html>.
24] Fabio Di Giammarco, Conservare il futuro, «Biblioteche oggi», 23 (2005), n. 2, p. 31-34. Vedi anche <http://www.culturadigitale.it/articoli/ConservareFuturo.htm>.
25] <http://www.alexa.com/>.
26] <http://www.archive.org/web/web.php>. Un mirror integrale è stato inserito all’interno del sito della Biblioteca Alessandrina: <http://www.bibalex.org/english/initiatives/internetarchive/web.htm>: in questa ultima home page si legge: «The US version has been very popular in the United States getting the # 1 website of the year from Yahoo Internet Life and Der Spiegel. This historic collection is already invaluable to scholars trying to understand the interactions between people and events. We expect to build special collections that reflect the interests of the patrons of the Bibliotheca Alexandrina».
27] Alcuni appunti tecnici sul funzionamento di Internet Archivi si trovano alla pagina <http://www.archive.org/about/using.php>.
28] Preserving our digital heritage. Plan for the National Digital Information Infrastructure and Preservation Program. A Collaborative Initiative of the Library of Congress, <http://www.digitalpreservation.gov/repor/ndiipp_plan.pdf>.
29] Il dato statistico proviene da fonte pubblicata in Internet che, per l’appunto, risulta oggi non più consultabile e quindi è citata attraverso citazioni. Ad esempio in Peter Lyman, Archiving the World Wide Web, in: Preserving Our Digital Heritage: Plan for the National Digital Information Infrastructure and Preservation Program: Appendices <http://www.digitalpreservation.gov/repor/ndiipp_appendix.pdf>, p. 53-67, si dice: «Numerical descriptions of the Web are based on data available in fall 2000. These data sources were originally published on the Web, but are no longer available, illustrating the problem of Web archiving. However, the original sources are reproduced in detail in Lyman and Varian 2000, and are available at <http://www.sims.berkeley.edu/research/projects/how-much-info/internet/rawdata.xls>». (nel gennaio 2005 la pagina non è più raggiungibile).
30] <http://netpreserve.org/press/pr20040505.php>.
31] Guidelines for the selection of online Australian publications intended for preservation by the National Library of Australia, <http://www.nla.gov.au/scoap/guidelines.html>.
32] <http://www.nla.gov.au/padi/index.html>.
33] <http://pandora.nla.gov.au/pandora/>.
34] Paul Koerbin, The PANDORA Digital Archiving System (PANDAS), <http://www.nla.gov.au/nla/staffpaper/2004/koerbin2.html>, relazione presentata al 4th International Web Archiving Workshop, Bath, UK, 16 September 2004, <http://www.iwaw.net/04/index.html>.
35] L’art. 1 della legge afferma che «Al fine di conservare la memoria della cultura e della vita sociale italiana sono oggetto di deposito obbligatorio, di seguito denominato ‘deposito legale’, i documenti destinati all’uso pubblico e fruibili mediante la lettura, l’ascolto e la visione, qualunque sia il loro processo tecnico di produzione, di edizione o di diffusione, ivi compresi i documenti finalizzati alla fruizione da parte di portatori di handicap ed individua così le categorie di documenti destinati al deposito legale (art 4) 1. Le categorie di documenti destinati al deposito legale sono: a) libri; b) opuscoli; c) pubblicazioni periodiche; d) carte geografiche e topografiche; e) atlanti; f) grafica d’arte; g) video d’artista; h) manifesti; i) musica a stampa; l) microforme; m) documenti fotografici; n) documenti sonori e video; o) film iscritti nel pubblico registro della cinematografia tenuto dalla Società italiana autori ed editori (SIAE); p) soggetti, trattamenti e sceneggiature di film italiani ammessi alle provvidenze previste dall’articolo 20 del decreto legislativo 22 gennaio 2004, n. 28; q) documenti diffusi su supporto informatico; r) documenti diffusi tramite rete informatica non rientranti nelle lettere da a) a q)».
37] Ricordiamo a proposito quanto affermato dall’art. 2 della Carta per la conservazione del patrimonio digitale cit. «Lo scopo della conservazione del patrimonio digitale è garantire che questo rimanga accessibile al pubblico. Pertanto, l’accesso ai materiali digitali, soprattutto quelli di dominio pubblico, dovrebbe essere libero da qualunque restrizione immotivata. Allo stesso tempo, le informazioni delicate e di carattere personale dovrebbero essere protette da qualunque forma di intrusione».
38] Un’interessante bibliografia sul tema del Web Archiving è segnalata in: «Digital Preservation - What’s New», Issue no. 9 (July-December 2004), <http://www.dpconline.org/graphics/whatsnew/issue9.html>. Tra i testi indicati si notino in particolare gli atti del convegno 4th International Web Archiving Workshop (IWAW’04), Bath, UK, 2004, eds. Julien Masanès, Andreas Rauber, <http://www.iwaw.net/04/index.html>.
39] <http://www.bncf.firenze.sbn.it/notizie/testi/comunicatositiWeb.htm>. Comunicato datato 20 maggio 2004.
40] Niels Brügger, Archiving websites: general considerations and strategies, Center for Internetforskning, 2005, <http://cfi.imv.au.dk/pub/boeger/bruegger_archiving.pdf>.
41] Come leggo, ad esempio, oggi un file prodotto nel 1985 da File Assistant? Il caso (ancora non pubblicato) del trasferimento della documentazione grafica vettoriale relativa ai lavori di restauro degli affreschi michelangioleschi della Cappella Sistina dal formato proprietario in cui erano stati sviluppati al formato DXF-DWG potrebbe essere in questo senso esemplare per le procedure messe in atto.