minerva homepage  
home |  search |  map |  contact us

Path: Home | Publications | Manuale | Indice | Digit fugit ovvero osservazioni sulla conservazione del Web

 
 

Manuale per la qualità dei siti Web pubblici culturali

   
 
  About MINERVA and MINERVA Plus  
  Structure  
   
  NPP  
  Good practices  
  Competence centres  
  Digitisation guidelines  
  European and national rules on Web Applications  
  Enlargement  
  Events  
  References  
  Publications
 
 
 


Digit fugit ovvero osservazioni sulla conservazione del Web1
Giancarlo Buzzanca


Non è possibile trattare di conservazione del Web senza accennare, sia pure brevemente, al problema più generale della conservazione del digitale.
La coscienza della criticità della long term preservation del digitale matura quasi contemporaneamente all’adozione stessa di strumenti informatici e quindi data almeno ai primi anni Sessanta. Ma a questa generica coscienza non ha corrisposto una razionale politica di migrazione di dati tra piattaforme, sistemi operativi e diverse versioni dei software utilizzati.
Un ruolo di primo piano in questo scenario è giocato anche dal continuo sviluppo dell’informatica e dai cambiamenti della tecnologia: il problema più importante connesso con la  conservazione di supporti digitali è l’obsolescenza tecnologica e volta per volta, i problemi presentatisi sono stati risolti senza riuscire a sviluppare metodologie standard e tecniche appropriate ad un intervento a lungo termine.
Un capitolo a parte meriterebbero i supporti fisici (schede perforate nastri magnetici, floppy disk nei vari formati, CD, DVD, dischi ottici) la cui durata nel tempo, a parte le schede perforate, è assai inferiore a quanto sperimentalmente determinato. Questo pone talvolta insormontabili problemi per quanto riguarda la leggibilità fisica dell’informazione registrata sui supporti e risolve alla base il problema della conservazione dell’informazione che non è spesso possibile poiché l’informazione risulta irrimediabilmente svanita.
Ma al di fuori di queste valutazioni ironico-pessimiste va sottolineato come i primi personal computer e i primi software (e quindi le relative elaborazioni prodotte con questi software) stiano alla tecnologia attuale come i fonografi a manovella stanno agli impianti di riproduzione del suono di ultima generazione. Ma se questo è vero quel quello che riguarda il passato, a meno che non si intervenga subito con attività di conservazione dei supporti o replica del contenuto su nuovi supporti, non c’è alcuna garanzia che anche quanto viene prodotto oggi possa essere letto nel futuro mediante le tecnologie che verranno messe a punto2, a meno di eseguire una continua attività di porting tra supporti fisici e formati di file.
«In sintesi, […], i documenti digitali devono (affrontare) rischi specifici, che attentano alla loro persistenza nel tempo:

  • scarsa durata fisica dei supporti per la memorizzazione dei dati (cd, dvd, floppy, ecc.);
  • obsolescenza dell’hardware per la decodifica dei supporti (lettori di vario tipo);
  • obsolescenza del software per l’interpretazione dei dati (word processor, programmi di grafica, browser, ecc.);
  • obsolescenza dell’hardware per l’esecuzione dei programmi di interpretazione (microprocessori, computer, ecc.);
  • decontestualizzazione rispetto all’ambiente di riferimento»3.

Azioni concrete mirate alla conservazione del prodotto e del materiale digitale sono, d’altra parte, storia recente.
Una autorevole conferma nella direzione di un impegno serio da parte delle istituzioni operanti nel mondo della cultura proviene dalla Charter for the Preservation of the Digital Heritage (CPDH)4 adottata un paio di anni or sono dall’Unesco. Il documento ha posto i documenti digitali sullo stesso piano di quelli esistenti su supporti e in formati tradizionali, affermando l’esigenza di attività mirate alla conservazione (dei contenuti e dei supporti) al fine di mantenere tali documenti accessibili nel tempo e assicurarne, come in tutte le attività di conservazione, la trasmissione al futuro e la loro accessibilità. La CPDH ha inoltre individuato, fra gli strumenti chiave necessari al conseguimento di questo fine, il deposito legale o volontario dei documenti digitali in archivi, biblioteche, musei e altri depositi pubblici5. La conservazione è compito, quindi, di bibliotecari e archivisti.
Già da alcuni anni bibliotecari e archivisti avevano posto i temi della conservazione del digitale al centro di un acceso dibattito6 che si è poi diffuso in altri settori in parallelo con la generalizzata diffusione delle applicazioni informatiche nei più diversi settori dei beni culturali7. Tra queste ricordiamo le attività di digitalizzazione applicata a schedature (inventariali, storico-critiche, conservative ecc.), l’adozione delle metodologie di Geographical Information System a supporto dell’attività di documentazione di siti archeologici, l’adozione delle stesse tecniche successivamente estesa sino a considerare il singolo oggetto come sistema locale di riferimento e infine la documentazione grafica di manufatti di interesse storico-artistico al fine di rappresentarne le condizioni di conservazione, le tecniche d’esecuzione e gli interventi passati, attuali e di progetto8: diversissimi settori e ambiti disciplinari cui corrispondono diversissime strutture informatiche e altrettanto diversi formati digitali.
Il dibattito esce dalla ristretta area degli esperti di scienze informatiche anche grazie a eventi che hanno avuto buona risonanza presso i media. Tra questi “Time and Bits: Managing Digital Continuità”, un meeting a inviti che si tenne all’inizio del 1998 presso il Getty Center a Los Angeles. Obiettivo dell’incontro era quello di svolgere alcune “straordinarie introspezioni” dentro gli usi futuri delle tecnologie digitali e il loro impatto sulla documentazione del patrimonio culturale9.
La lista dei partecipanti all’incontro rende chiaramente conto di come il tema sia stato affrontato nella sua interezza e fuori dai ristretti (e banali) ambiti dei “tecnici esperti della materia”.
Questi sono alcuni dei partecipanti10: Howard Besser, specialista in archiviazione digitale, Adjunct Associate Professor presso la UC Berkeley’s School of Information Management & Systems; Ben Davis, Program Manager, Getty Information Institute11; Brian Eno, musicista, produttore musicale, artista; Danny Hillis, vicepresidente di ricerca e sviluppo presso la Walt Disney Company, cofondatore e direttore scientifico della Thinking Machines Corporation; Brewster Kahle, Inventore del WAIS e fondatore del Wide Area Information Servers, Inc. [WAIS] oltre che fondatore dell’Internet Archive. Autore di saggi sulla conservazione di Internet12; Peter Lyman, professore presso la School of Information Management & Systems nella University of California, Berkeley. e direttore della Biblioteche universitarie della stessa Università.
Il Web è individuato come uno dei principali temi di discussione (la presenza di Kahle e in parte quella di Davies lo testimoniano) che vede convivere assieme problemi di archiviazione, di indicizzazione, di conservazione fisica degli archivi, di reperibilità ed effettiva accessibilità alla fonte archiviata ecc.
Da una parte, quindi, il problema della fragilità intrinseca del digitale viene sollevato come questione di carattere culturale, dall’altra si comincia a delimitare e circoscrivere l’ambito di interesse delimitandone contenuti e dimensioni. Quando ci si riferisce al Web occorre includere non soltanto le pagine web ipertestuali tradizionalmente intese ma anche forum, blog (e sue evoluzioni), basi di dati accessibili esclusivamente attraverso maschere di query, e pagine e livelli talvolta non accessibili (deep Web13) che per lo più sfuggono ai motori di ricerca. Il deep Web ha dimensioni quasi inusitate.
È un sistema che più fragile non si potrebbe immaginare, soggetto com’è ad una instabilità costituzionale dei dati e delle relazioni tra questi14. Ma prima ancora delle relazioni tra le informazioni occorre comprendere quali siano le cifre e le quantità che caratterizzano la rete. In altre parole quanto è effettivamente grande Internet, quanta informazione contiene?

Le dimensioni (2002) di Internet in terabytes15

 

Terabytes

Surface Web

167

Deep Web

91.850

E-mail

440.606

Instant messaging

274

TOTALE

532.897

Fonte: How much information 200316

È difficile percepire correttamente le quantità espresse da queste cifre. Questi dati hanno maggiore evidenza se confrontati, ad esempio, con quelli calcolati (immaginando un’ipotetica completa digitalizzazione) per la Library of Congress, che è la maggiore tra le biblioteche esistenti al mondo:
«La dimensioni di 20-terabyte che vengono comunemente attribuite alla Library of Congress, per quanto ne sappia, derivano dall’aver assunto che la LC ha 20 milioni di libri e che ciascuno di essi richieda 1 MB. Naturalmente la LC è composta da molti altri materiali, affianco al testo stampato, e questi materiali potrebbero esigere molto spazio in più:
1.   tredici milioni di fotografie, le quali seppure fossero compresse in files JPG da 1 Mb ciascuno, potrebbero richiedere 13 TB;
2.   i 4 milioni di mappe raccolte nella Geography Division potrebbe essere scansionate e richiedere almeno 200 TB;
3.   la LC possiede oltre 500 mila film, calcolando 1 GB per ciascuno questo potrebbe significare 500 TB (molti film non sono a colori);
4.   la massa maggiore dovrebbe esse costituita dai 3,5 milioni di registrazioni sonore le quali, considerando un CD per ciascuna di queste, significherebbe almeno 2.000 TB.
Tutto ciò porta il peso totale ad almeno 3.000 TB17».

Quantità enormi di dati significa altrettanto enormi quantità di supporti di registrazione delle informazioni e loro cura sia fisica che organizzativa. Il problema della conservazione non è solo un problema quantitativo: conservare il Web significa, in primo luogo, disporre di adeguati strumenti di raccolta18, validazione della attività di raccolta (per autenticità e per completezza), selezione e scarto del materiale di base. Significa investire enormi quantità di fondi. Significa, a secondo della mission di chi effettua la raccolta (ad esempio le biblioteche nazionali o quelle orientate a finalità specifiche), delimitare un campo preciso di intervento. Questo campo nel caso delle biblioteche nazionali centrali (per lo più deputate alla conservazione della memoria nazionale) corrisponde, per quanto riguarda il Web, agli ambiti individuati dai domini nazionali (country codes top level domain). In altre parole, significa che le biblioteche nazionali centrali in Italia registreranno e conserveranno sicuramente i siti il cui CC sia .it. Rimane aperto il problema della lingua (posso avere attivato un Web site in lingua inglese su server italiano) e del server su cui risiede l’informazione (il sito in lingua italiana e con dominio .it potrebbe essere ospitato su un server nella città di Hong Kong).
In ogni caso, dal punto di vista pratico, questo significherà disporre di adeguati supporti per la memorizzazione sia che questa venga compiuta una volta per tutte sia che questa sia stata progettata ripetuta nel tempo a intervalli definiti e secondo la modalità di download (integrale o incrementale).
L’attuale situazione, caratterizzata da ampio e necessario sperimentalismo: quale metodologia di raccolta, quale livello di selezione e scarto della fonte e quali strumenti tecnologici sono da adottare ed ancora quali sono gli eventuali problemi legali legati alla registrazione di siti protetti da vincoli di copyright) vede lo svilupparsi di alcuni tentativi tra i quali il primo e più famoso tra tutti è l’Internet Archive (vedi scheda).
La storia di questi tentativi segna, comunque, la transizione da una logica di “conservazione integrale del dato” (possibile solo all’inizio dello sviluppo di Internet e del Web ma cui nessuno, nell’arco degli anni Novanta, ha posto la necessaria attenzione) a una di “selezione e catalogazione” tipica degli archivisti.
Senza una ferrea logica di selezione e scarto non è, infatti, pensabile di affrontare realisticamente il problema del salvataggio della memoria del Web.
Da un punto di vista strettamente operativo, in realtà, l’esigenza di conoscere, traversare, sondare e indicizzare i contenuti è una delle prime questioni che i motori di ricerca si sono trovati ad affrontare per dare senso compiuto e materiale elaborabile per le tecnologie di ricerca adottate da ciascun operatore.
Il problema cruciale è legato, come chiarito in precedenza, alle dimensioni del Web.
L’eterogeneità delle pagine e dei contenuti del Web trova un paragone abbastanza semplice con la smisurata produzione cartacea che ha caratterizzato la seconda parte del secolo scorso. Davide Bidussa, in un articolo pubblicato nel 2003 sul «Manifesto»19 poneva il problema della necessità di digitalizzare, al fine di garantirne la sopravvivenza dei contenuti, i materiali «documentari relativi a partiti politici» (volantini, veline, faldoni e faldoni di “fogli volanti”: tutti materiali fragili di bassa qualità e con intrinseche qualità di resistenza all’usura ed al tempo veramente limitate) per la conservazione dei quali occorre, prima ancora delle risorse economiche, la consapevolezza della necessità della conservazione messa in atto attraverso una preventiva e oculata attività di selezione e scarto.
Il Web, in fondo, esprime la stessa confusione (e la stessa difficoltà di giudizio) che è propria della stagione dei volantini e dei ciclostile. Anzi, la pubblicazione di documenti è divenuta ancora più semplice e alla portata di chiunque: pubblicazione e permanenza dell’informazione (la pagina) nel Web ha costi sopportabili pressoché da chiunque tant’è che uno dei problemi maggiormente discussi nelle comunità specialistiche è quello dell’autorevolezza e della fondatezza dei materiali e del sapere esposto nella rete.
La selezione, la raccolta e l’indicizzazione delle pagine dei siti anche se sembrano suggerire l’immagine di un monaco medioevale che seleziona tra le fonti quelle meritevoli di copia utilizzando le proprie categorie culturali e la propria sensibilità (il proprio arbitrio)20 introducono il tema dei metadati.
Si può solo accennare brevemente che una delle funzioni essenziali per archiviare il Web (e garantire, quindi la sua conservazione) è quella della descrizione codificata (utilizzando standard di riferimento accettati e condivisi) del contenuto della pagina stessa e delle informazioni “anagrafiche” relative alla pagina.
Per far questo è assolutamente raccomandato, in fase di creazione del contenuto della singola pagina web, l’utilizzo di metadati (i meta-tag) all’interno del linguaggio HTML21. Per la struttura dei metadati numerosi sono gli standard accettati e tra questi il Dublin Core Metadata Initiative22 è quello che maggiormente ha raccolto intorno a sé consensi.
In alternativa è possibile (mediante appositi software) ricavare automaticamente metadati dalle pagine e questa funzione è alla base di tutti i principali progetti di archiviazione e conservazione del Web.
I metadati esprimono, in un linguaggio strutturato e codificato, alcune caratteristiche relative all’oggetto, o alla classe d’oggetti, cui sono associati. La descrizione dei metadati (set di metadati) non è possibile in questa sede ma necessiterebbe, per la sua centralità nell’azione di archiviazione e rintracciabilità e consultabilità dei documenti di una trattazione apposita per la quale si rimanda alla ricca bibliografia esistente e, per quanto concerne la situazione italiana, al sito dell’Istituto centrale per il catalogo unico delle biblioteche italiane e per le informazioni bibliografiche (ICCU)23.
Per le tecniche di archiviazione adottate oggi si utilizzano tre sistemi: la selezione manuale, l’harvesting automatico senza selezione, l’harvesting automatico con parametrizzazione manuale.
«Nel primo caso l’intervento umano è totale, nel secondo è invece totalmente assente a vantaggio di software chiamati crawler che setacciando instancabilmente la Rete e raccolgono pagine web sotto forma d’istantanee (snapshots), nel terzo invece i crawler sono impostati per puntare su siti in precedenza selezionati come rilevanti.
Il modello che applica integralmente l’harvesting automatico viene definito a “dominio completo”. È un approccio che mira a scorrere il proprio spazio web nazionale collezionando tutto il possibile […]
Se invece lo scopo è quello di archiviare, secondo specifici criteri, definite porzioni dello spazio web o particolari risorse, si ha il modello selettivo. La selezione può basarsi sul significato, sulla qualità delle risorse oppure su particolari argomenti o anche individuando un insieme specifico di siti web»24.

Schede su progetti e temi

Internet Archive
http://www.archive.org/
Internet Archive (IA) è una non-profit corporation la cui missione è quella di costruire una Internet digital library: «Internet Archive sta attuando una azione di prevenzione grazie alla quale – un nuovo media con un valore storico significante – è altri materiali nati digitali siano protetti dallo svanire nel passato.
Internet Archive sta costruendo una biblioteca digitale dei siti Internet così come degli altri “prodotti” culturali che siano in formato digitale. Come una biblioteca cartacea garantiamo libero accesso ai ricercatore, agli storici, agli esperti ed in generale al pubblico […] Accesso libero e gratuito al patrimonio scritto e alle altre forme di scrittura viene ritenuto essenziale per motivi educativi e per il mantenimento di una società aperta».
IA è stato lanciato nel 1996 a San Francisco per iniziativa di Alexa Research25 e di altre società (Xerox Parc, Ibm, At&t, Nec) e istituzioni americane (Library of Congress, Smithsonian, Federal Government Information Clearinghouse),
L’interfaccia utente dell’archivio che consente di prendere visione e navigare nei siti a un “tempo determinato” si chiama Wayback Machine26 ed è uno dei siti più popolari del Web.
Nell’arco di sei anni IA ha realizzato il maggiore tra gli archivi web esistente e la sua dimensione complessiva ha raggiunto (dati 2002) oltre 400 TB27. L’archivio è composto principalmente dalle pagine raccolte da Alexa Internet a partire dal 1996. Alexa Internet è una società mirata alla raccolta di snapshot dal Web per alimentare motori di ricerca. La scansione del Web è completata ogni due mesi e ciò comporta un incremento dei dati raccolti che è stimabile in 10 TB (20 per alcune fonti) per ciascun mese. I siti scansionati risultano essere più di 35 milioni.
La scansione del Web è compiuta da Alexa attraverso propri software proprietari che, diversamente dalla raccolta degli snapshot, non sono resi disponibili per IA che, attraverso propri software e fondi immagazzina, indicizza e rende pubblicamente accessibile il materiale versatole da Alexa.

National Digital Preservation Plan, Stati Uniti
Negli Stati Uniti è stata affidata al coordinamento della Library of Congress la messa a punto di un National Digital Preservation Plan (NDPP).
Al breefing di lancio del NDPP28, James H. Billington, bibliotecario capo della Library of Congress, introdusse il tema della conservazione del Web rilevando come se le tavolette d’argilla che contengono le leggi dei Sumeri e le ossa votive con l’iscrizione dei nomi dei re rimangono come evidenza di antiche civiltà, molto di quanto esiste della storia contemporanea su strutture informatiche è destinato a scomparire senza lasciare traccia.
Le considerazioni e i dati statistici contenuti nella relazione meritano alcuni commenti: «il contenuto digitale che nasce in Internet raddoppia ogni anno ma molto viene perduto appena appare; la vita media di una pagina del Web è di soli 44 giorni;circa una metà di tutti i siti web disponibili nel 1998 sono scomparsi nel giro di un anno»29.
Billington nota come molto di quanto è stato creato sul Web non è più accessibile pur essendo un materiale di primaria importanza e che, pertanto, non sia di fatto possibile un recupero integrale dell’informazione transitata nel Web.
«Stiamo vivendo il pericolo di perdere la stessa storia perché le strutture sulle quali gli storici si sono basati per secoli possono non essere più disponibili quando siano ottenuti soltanto nel fragile ed evanescente mondo digitale. Il raccogliere e preservare materiali del regno informatico coincide con la storica missione della Biblioteca per sostenere e conservare una universale documentazione di conoscenze e creatività per le future generazioni».

International Internet Preservation Consortium
http://netpreserve.org/about/index.php
La Biblioteca nazionale di Firenze, congiuntamente alle biblioteche nazionali dell’Australia, Canada, Danimarca, Finlandia; Francia; Islanda, Italia, Norvegia, Svezia nonché alla British Library (UK), alla Library of Congress (USA) ed a Internet Archive (USA) hanno concordato e riconosciuto l’importanza di una collaborazione internazionale fondando, nel 2003, l’International Internet Preservation Consortium al fine di preservare il contenuto di Internet per le future generazioni. Le attività di coordinamento del Consorzio spettano alla Biblioteca nazionale francese.
Gli obiettivi che il consorzio si pone sono:

  • rendere possibile che una parte essenziale di Internet possa essere preservato garantendo la capacità di archiviare il contenuto ed accedere nel tempo ai dati archiviati;
  • spingere allo sviluppo ed all’uso di strumenti, tecnologie e standard che rendano possibile la creazione di archivi internazionali;
  • incoraggiare e assistere le biblioteche nazionali a formulare programmi di archiviazione e conservazione del Web.

Queste le Biblioteche e le istituzioni che prendono parte a questo progetto:

  • Biblioteca nazionale centrale di Firenze
  • Det Kongelige Bibliotek, Denmark
  • Helsingin yliopiston kirjasto -Suomen Kansalliskirjasto (Helsinki University Library, The National Library of Finland
  • Internet Archive United States of America
  • Kungliga biblioteket Sveriges nationalbibliotek (The Royal Library, National Library of Sweden)
  • Landsbokasafn Islands – Haskolabokasafn (National and University Library of Iceland)
  • Library and Archives Canada
  • Nasjonalbiblioteket (The National Library of Norway)
  • National Library of Australia
  • The British Library United Kingdom
  • The Library of Congress United States of America.

«Il Consorzio ha identificato un certo numero di obiettivi chiave che danno forma e modellano le attività:
Questi includono:

  • lavoro collaborativo, all’interno del quadro legislativo di ciascun paese, al fine di identificare, sviluppare e favorire l’implementazione di soluzioni per la selezione, la collezione, la preservazione e il garantire accesso ai contenuti di Internet;
  • favorire la copertura internazionale del contenuto Internet delle collezioni e degli archivi con il quadro legislativo nazionale, in accordo con le politiche di sviluppo delle collezioni nazionali;
  • patrocinio internazionale a favore di iniziative che incoraggino la collezione, la preservazione e l’accesso ai contenuti di Internet.

Per raggiungere questi obiettivi il Consorzio provvederà a:

  • realizzare un forum per la condivisione della conoscenza relativa all’ archiviazione dei contenuti di Internet […];
  • sviluppare e raccomandare standard;
  • sviluppare strumenti interoperabili e tecnologie devolute ad acquisire, archiviare e garantire l’accesso ai siti web;
  • incrementare la consapevolezza sui temi della conservazione di Internet promuovendo conferenze, workshop, seminari di studio, pubblicazioni a stampa, ecc…;

I lavori del Consorzio saranno assicurati attraverso gruppi di lavoro dedicati alla definizione delle politiche, delle necessità, dei metodi, degli standard e degli strumenti necessari per l’attività di archiviazione di Internet30».

National Library of Australia
La Biblioteca nazionale australiana è stata sempre particolarmente attiva nell’ambito della gestione e conservazione dei documenti digitali tanto da considerare l’attività di digitalizzazione obiettivo prioritario. Nelle linee guida della Biblioteca nazionale australiana il termine to preserve è adottato per identificare tutte quelle fasi che includono l’archiviazione, la organizzazione, la descrizione, l’aggiornamento e la migrazione dei dati tutte compiuti per assicurare long term access31.
In particolare sono stati attivati due diversi progetti finalizzati alla conservazione delle risorse digitali, in genere, e all’archiviazione, classificazione, conservazione e rintracciabilità delle risorse in rete:

PADI (Preserving Access to Digital Information)32.
La National Library of Australia’s Preserving Access to Digital Information (PADI) si pone l’obiettivo di provvedere meccanismi che possano consentire che l’informazione in formato sia gestita con una appropriata considerazione alle esigenze della conservazione e dell’accesso, nel tempo, alle stesse fonti.
Gli obiettivi che PADI si propone sono:

  • favorire lo sviluppo di strategie e lineeguida per la preservazione dell’accesso alle informazioni digitali;
  • sviluppare e mantenere un sito web dedicato all’informazione e alla promozione dell’iniziativa;
  • identificare e promuovere progetti ed attività rilevanti nel settore;
  • promuovere un forum per la cooperazione inter-disciplinare sulle attività di promozione della conservazione dell’accesso a informazioni digitali.

PANDORA (Preserving and Accessing Networked DOcumentary Resources of Australia)33.
La finalità di PANDORA è quella di raccogliere e assicurare long-term access a pubblicazioni on line selezionate e a siti web che siano relativi all’ Australia, siano di autore Australiano con argomento socialmente, politicamente, culturalmente, religiosamente, scientificamente o economicamente rilevante per l’Australia, oppure che siano di un autore Australiano di riconosciuta autorità e che realizzi un contributo alla conoscenza internazionale.
Iniziato nel 1996, questo progetto della Biblioteca nazionale australiana si propone, quindi, di istituire un archivio digitale delle pubblicazioni elettroniche a livello nazionale. Ad oggi ha realizzato l’archiviazione di fonti in rete (periodici elettronici, siti, pubblicazioni governative) e ha sviluppato politiche di intervento e procedure per la preservazione a lungo termine delle pubblicazioni nazionali su Internet.
L’approccio adottato è quello selettivo: la decisone su cosa archiviare è demandata a tutte le agenzie che sono responsabili dei singoli settori in cui PANDORA è suddiviso.
Questi sono alcuni dati statistici relativi a quanto contenuto nell’archivio di PANDORA34.

Numero di titoli:                                                  6.608
Numero di files:                                                  21.117.595
Dimensione in gigabytes:                                     702,1

 

L’archiviazione dei siti web in Italia
La legge 106 del 15 aprile 2004 Norme relative al deposito legale dei documenti di interesse culturale35 dispone, al fine di conservare la memoria della cultura e della vita sociale italiana, la raccolta e la conservazione dei siti web (così come di tutte le pubblicazioni digitali) presso le Biblioteche nazionali centrali di Roma e di Firenze.
È una legge che coglie, probabilmente, impreparati gli uffici pubblici destinati a essere gli esecutori materiali della norma e causa un’ondata di dubbi sulle modalità pratiche di “deposito” dei siti.
Le norme attuative sono demandate a un regolamento che la legge prevede debba essere emesso entro sei mesi dalla data di entrata in vigore della legge (quindi entro il 15 ottobre 2004) ma che ancora non è stato emesso36, probabilmente a causa della difficoltà di individuare modalità tecniche di attuazione in un contesto in cui non sono state compiute adeguate sperimentazioni e individuate, quindi, regole tecniche, modalità di registrazione, supporti di conservazione ecc.
Non secondaria appare l’osservazione che occorre comprendere anche quali siano, dal punto di vista della protezione del diritto d’autore e della riservatezza, i limiti che le eventuali copie del sito debbono rispettare: il sito potrà non essere totalmente pubblico e necessitare di coppie di username/password per l’accesso a zone riservate (private) con rischio di accesso, copia e archiviazione di dati anche “sensibili” e comunque protetti da vincoli37.
Un’indicazione operativa a proposito dell’entrata in funzione come deposito di documenti digitali giunge dalla Biblioteca nazionale centrale di Firenze (BNCF) che indica nel consorzio IIPC (consorzio cui la Biblioteca aderisce) il punto di riferimento per la elaborazione di metodi di archiviazione38.
Non essendo ancora stato emesso il regolamento attuativo della legge citata, al fine di scongiurare l’accumulo di materiale ricevuto in mancanza di una definizione di una qualsiasi procedura, la BNCF ha pubblicato questo comunicato: «La legge prevede che venga emanato entro sei mesi un regolamento di applicazione, ma si può anticipare che le biblioteche nazionali stanno cooperando a livello internazionale e che concordemente indicano nell’harvesting – ossia nella raccolta delle pagine web effettuata tramite un software (crawler) – la modalità più efficiente e sostenibile di deposito. In pratica con questa tecnologia chi pubblica siti web liberamente accessibili in rete non deve ‘depositare’ assolutamente niente: è il crawler gestito dall’istituzione depositaria che provvede a “raccogliere” il sito web»39.

Macro e micro archiviazione di siti web
In generale l’archiviazione dei siti web può essere eseguita secondo due diversi approcci: macro e micro40.
La macro archiviazione è eseguita con l’intento di archiviare (in maniera selettiva e non) in tutto o in parte il patrimonio culturale nazionale e internazionale:

  • su larga scala avendo come oggetto un gran numero di siti web;
  • da istituzioni (publiche/private, nationali/internazionali) che dispongono di fondi economici, attrezzature, capacità di immagazzinamento, competenze tecniche professionali di alta capacità.

La microarchiviazione, invece, è compiuta con l’obiettivo spesso di conservare un sito web oggetto di studio (qualunque ne sia la motivazione):

  • su una piccola scala, sia per quanto riguarda le dimensioni (un limitato numero di siti web) e il tempo (un tempo selezionato e determinato);
  • solitamente da singoli che non hanno a disposizione hardware, capacità di immagazzinamento e competenze tecniche se non a livello amatoriale.

Nelle more dell’approvazione di un’attività centrale nazionale di archiviazione di siti e risorse web occorre che webmaster e responsabili della politica di gestione dei singoli siti si pongano consapevolmente una serie di quesiti sul destino delle risorse da loro gestite e sulla conservazione nel tempo di queste stesse risorse.
La logica operativa non potrà che essere quella della microarchiviazione proprio perché le risorse tecniche ed economiche dei singoli istituti talvolta sono insufficienti e i progetti “globali” sono promossi e gestiti dai livelli superiori delle amministrazioni.
Allo stato attuale una politica di backup dei siti è finalizzata a garantire la sopravvivenza dei siti stessi alle, peraltro continue, falle dell’hardware (server che vanno in crash con regolare frequenza) e come antidoto alle altrettanto continue incursioni di hacker, qualsiasi sia la motivazione da loro esibita.
Effettuare regolari copie del sito e conservare copia (integrale o incrementale) del sito stesso con un preciso marcamento temporale è attività che non viene praticata da molti.
È vero che l’evoluzione continua del Web (quando il sito sia costantemente presidiato e quindi costantemente aggiornato) costringe a individuare una qualche regola per definire un calendario di azioni di copia.
A questo proposito si può prendere ad esempio Internet Archive che ha scansionato (e registrato) il Web a intervalli irregolari ma comunque con un ritmo che ha sempre preveduto ben più di un passaggio mensile.
È chiaro come l’attività di copia risulti talvolta essere complessa perché da eseguire, contemporaneamente su fonti diverse. È questo il caso di tutti i siti che siano basati su basi di dati dove, evidentemente, la copia della base di dati stessa è la condizione necessaria per il funzionamento della copia.
Talvolta pagine statiche e/o dinamiche, le basi dei dati e comunque le fonti informative sono situate su server diversi. Questo complica non poco le attività di copia (backup).
Ometteremo in questa sede tutte le osservazioni relative alla conservazione dei supporti fisici su cui le informazioni stesse sono registrate, non esentandoci, però, dal notare come la conservazione di CD, DVD, nastri e tutti i supporti conosciuti sia un terreno minato ancora poco esplorato. Aver registrato una copia del sito su un singolo CD non può che far incrociare le dita sulla tenuta dello stesso CD nel tempo (brevissimo) a causa della vulnerabilità “magnetica” del supporto, della durata talvolta imprevedibilmente breve della pellicola superficiale del CD stesso, del mantenimento della possibilità di lettura del contenuto nel tempo a causa della continua modificazione e sostituzione dei software.
Il refresh del dato41 si pone, a fianco della conservazione brutale dei bit, come elemento centrale in questo discorso.
Potrò rischiare di avere un dato perfettamente conservato ma, al contempo, non avere la chiave di lettura della modalità di organizzazione del dato stesso, quando questo non sia stato registrato in maniera esclusivamente testuale e quindi, sostanzialmente privo di organizzazione.
Una base di dati di tipo relazionale, un disegno eseguito in grafica vettoriale, un’immagine sono difficilmente “testualizzabili”, è ovvio. Ma non c’è in generale la consapevolezza che occorrono procedure di conservazione del software o di migrazione di dati (senza perdita di parte di questi) tra differenti piattaforme hardware e software.
Non è semplice fornire indicazioni nel campo anche perché questo non è, ovviamente, un problema affrontabile a scala personale o di istituzione ma richiede un impegno da parte della comunità dei ricercatori (università, enti di ricerca, centri di eccellenza).
Nel frattempo, la registrazione su supporti magnetici, magneto-ottici ecc. dei dati e la loro archiviazione eseguita con attenzione anche alle condizioni ambientali della conservazione stessa è un passo imprescindibile che dovrebbe entrare nella prassi comune di gestione del sito secondo tempi e modalità che non è difficile trasformare in procedure anche di tipo obbligatorio.


1] Il titolo mutua (correggendolo…) quello della conferenza “Digits fugit. Preserving knowledge into the future”, Boston, Massachusetts (USA), 3-5 novembre 2005. La conferenza è la 33rd Annual Conference del Museum Computer Network <http://www.mcn.edu/>. Tutte le traduzioni da testi inglesi sono dell’autore.

2] Alessandro Olschki, Memorie digitali: rischio estinzione, <http://www.olschki.it/novita/memodig.pdf> (per la pubblicazione cartacea vedere i riferimenti nel file pdf).

3] Riccardo Ridi, La biblioteca digitale: definizioni, ingredienti e problematiche, «Bollettino AIB», 44 (2004), n. 3, p. 273-344.

4] Charter for the Preservation of the Digital Heritage adottata nel corso della 32a Unesco General Conference, il 17 ottobre 2003, <http://portal.unesco.org/en/ev.php-URL_ID=17721&URL_DO=DO_TOPIC&URL_SECTION=201.html>. Una traduzione italiana è stata curata dall’ICCU: Carta per la conservazione del patrimonio digitale, <http://www.iccu.sbn.it/PDF/carta_UNESCO_it.pdf>.

5] Associazione italiana biblioteche, Nuova legge sul deposito legale e documenti digitali, <http://www.aib.it/aib/commiss/bdigit/deplegdig.htm>. Per il problema, correlato, dell’IPR si rinvia al saggio di Giuliana De Francesco, in questo stesso volume.

6] Da sottolineare, in particolare, il progetto ERPANET (Electronic Resource Preservation and Access Network), <http://www.erpanet.org>. Occorre inoltre sottolineare l’anomalia dell’American Institute of Conservation (associazione dei restauratori statunitensi) che ha attivato al suo interno un Electronic Media Conservation Group con la missione dichiarata di provvedere alla conservazione della documentazione digitale e dei supporti fisici della documentazione digitale. L’azione si fonda sulla interpretazione estensiva dei principi etici del restauratore adottati dall’AIC, grazie ai quali il restauratore è tenuto ad assicurare la stabilità sia del lavoro di conservazione o restauro che della fedele registrazione di questi, qualunque ne sia il supporto.

7]. Nel 1999, infatti, in occasione di un seminario di ricerca sulla documentazione grafica di dipinti murali, tenutosi presso l’ICCROM il gruppo di lavoro WG3 (moderatori del Gruppo: Robin Letellier e Gaetano Palombo; componenti: Giancarlo Buzzanca, Elke Behrens, Stefano Casciu, Heinz Leitner, Florian Petrescu, Filippo Petrignani, Raphael Szambelan, Lori Wong) “Digital graphic documentation and data-bases: critical evaluation and comparison with conventional methods”, nel documento finale si domandava «How to censure current and future accessibility of information and take into consideration long-term compatibility of hardware and software?», individuando, poi, nell’adozione di standard documentati (di descrizione e trasferimento dati), nella manutenzione e aggiornamento di hardware e software e nell’ongoing manteinance of data gli strumenti necessari per svolgere questa azione. Vedi GraDoc, Research Seminar, Rome, 16-20 November 1999, edited by Werner Schmid, Roma: Iccrom, 2000.

8] Vedi Paola Moscati, Archeologia e informatica: fra tradizione e rinnovamento, in: Dossier “La documentazione digitale da Michelangelo a Cimabue, a cura di Giancarlo Buzzanca, Francesca Piquè, «Bollettino ICR», n. 5, luglio-dicembre 2002, p. 22-27. Contributo interessante perché attraverso la storia della rivista «Archeologia e Calcolatori», fondata nel 1990, tenta una storia delle applicazioni informatiche all’archeologia.

9] <http://www.longnow.com/10klibrary/TimeBitsDisc/index.html>. Per gli atti a stampa di questo incontro vedi Margaret MacLean, Ben H. Davis, Time and bits: managing digital continuity, Los Angeles: Getty Research Institute, 1999.

10] <http://www.longnow.com/10klibrary/TimeBitsDisc/part.html>.

11] A Ben H. Davis si deve il coordinamento del gruppo che costruì, nel 1993, il primo sito web del Getty Art and History Program (AHIP). La realizzazione si deve a Marty Harris.

12] <http://www.sciam.com/0397issue/0397kahle.html>.

13] Il rapporto tra surface Web e deep Web è tutt’ora inesplorato. Ricordiamo, a titolo d’esempio, che Google raggiunge (e indicizza) più di 8 miliardi di pagine e 880 milioni di immagini.

14] Stefano Vitali, Una memoria fragile: il Web e la sua conservazione, in: La storiografia digitale, a cura di Dario Ragazzini, Torino: UTET, 2004, p. 101-127.

15] Un terabyte equivale a circa 1100 miliardi di bytes. Si pensi, per quantificare visivamente il dato, a 1,6 milioni di CD per ciascun terabyte.

16] La tabella riporta una stima sulle dimensioni del Web curata dall’Università di Berkley. Report completo: <http://www.sims.berkeley.edu/research/projects/how-much-info-2003/printable_report.pdf>.

17] M. Lesk, How much information is there in the world?, <http://www.longnow.com/10klibrary/TimeBitsDisc/ksg.html>.

18] Un Web crawler (anche conosciuto come Web spider) è un programma che passa in rassegna il Web in un modo metodico e automatizzato. I Web crawler non mantengono soltanto una copia di tutte le pagine visitate per poi successivamente analizzarle – per esempio con un motore di ricerca – , ma le indicizzano per rendere la ricerca più veloce e precisa.

19] Un ulteriore esempio di uno stimolo a un dibattito che non si è generato all’interno degli angusti ambiti degli informatici e/o dei bibliotecari. Comunque quest’articolo causò all’interno della lista di discussione dell’Associazione italiana biblioteche (AIB) un dibattito acceso e particolarmente partecipato. Vedi: David Bidussa, Gli antichi scaffali messi online, «Il manifesto», 4 settembre 2003.

20] Sui pesanti retaggi che il Web eredita dal testo a stampa così come il testo a stampa aveva ricevuto dal libro manoscritto vedi: Riccardo Ridi, Il Web bibliotecario come incunabolo digitale, in: Riforma universitaria e rivoluzione dei media: una sfida per le biblioteche universitarie: atti del convegno internazionale, Bolzano, 28-29 settembre 2000, a cura di Franz Berger, Klaus Kempf, Firenze: Casalini libri, 2001, p. 59-72.

21] <http://www.w3.org/TR/REC-html40/struct/global.html#h-7.4.4>.

22] <http://dublincore.org/>.

23] <http://www.iccu.sbn.it/>, in particolare <http://www.iccu.sbn.it/dublinco.html>.

24] Fabio Di Giammarco, Conservare il futuro, «Biblioteche oggi», 23 (2005), n. 2, p. 31-34. Vedi anche <http://www.culturadigitale.it/articoli/ConservareFuturo.htm>.

25] <http://www.alexa.com/>.

26] <http://www.archive.org/web/web.php>. Un mirror integrale è stato inserito all’interno del sito della Biblioteca Alessandrina: <http://www.bibalex.org/english/initiatives/internetarchive/web.htm>: in questa ultima home page si legge: «The US version has been very popular in the United States getting the # 1 website of the year from Yahoo Internet Life and Der Spiegel. This historic collection is already invaluable to scholars trying to understand the interactions between people and events. We expect to build special collections that reflect the interests of the patrons of the Bibliotheca Alexandrina».

27] Alcuni appunti tecnici sul funzionamento di Internet Archivi si trovano alla pagina <http://www.archive.org/about/using.php>.

28] Preserving our digital heritage. Plan for the National Digital Information Infrastructure and Preservation Program. A Collaborative Initiative of the Library of Congress, <http://www.digitalpreservation.gov/repor/ndiipp_plan.pdf>.

29] Il dato statistico proviene da fonte pubblicata in Internet che, per l’appunto, risulta oggi non più consultabile e quindi è citata attraverso citazioni. Ad esempio in Peter Lyman, Archiving the World Wide Web, in: Preserving Our Digital Heritage: Plan for the National Digital Information Infrastructure and Preservation Program: Appendices <http://www.digitalpreservation.gov/repor/ndiipp_appendix.pdf>, p. 53-67, si dice: «Numerical descriptions of the Web are based on data available in fall 2000. These data sources were originally published on the Web, but are no longer available, illustrating the problem of Web archiving. However, the original sources are reproduced in detail in Lyman and Varian 2000, and are available at <http://www.sims.berkeley.edu/research/projects/how-much-info/internet/rawdata.xls>». (nel gennaio 2005 la pagina non è più raggiungibile).

30] <http://netpreserve.org/press/pr20040505.php>.

31] Guidelines for the selection of online Australian publications intended for preservation by the National Library of Australia, <http://www.nla.gov.au/scoap/guidelines.html>.

32] <http://www.nla.gov.au/padi/index.html>.

33] <http://pandora.nla.gov.au/pandora/>.

34] Paul Koerbin, The PANDORA Digital Archiving System (PANDAS), <http://www.nla.gov.au/nla/staffpaper/2004/koerbin2.html>, relazione presentata al 4th International Web Archiving Workshop, Bath, UK, 16 September 2004, <http://www.iwaw.net/04/index.html>.

35] L’art. 1 della legge afferma che «Al fine di conservare la memoria della cultura e della vita sociale italiana sono oggetto di deposito obbligatorio, di seguito denominato ‘deposito legale’, i documenti destinati all’uso pubblico e fruibili mediante la lettura, l’ascolto e la visione, qualunque sia il loro processo tecnico di produzione, di edizione o di diffusione, ivi compresi i documenti finalizzati alla fruizione da parte di portatori di handicap ed individua così le categorie di documenti destinati al deposito legale (art 4) 1. Le categorie di documenti destinati al deposito legale sono: a) libri; b) opuscoli; c) pubblicazioni periodiche; d) carte geografiche e topografiche; e) atlanti; f) grafica d’arte; g) video d’artista; h) manifesti; i) musica a stampa; l) microforme; m) documenti fotografici; n) documenti sonori e video; o) film iscritti nel pubblico registro della cinematografia tenuto dalla Società italiana autori ed editori (SIAE); p) soggetti, trattamenti e sceneggiature di film italiani ammessi alle provvidenze previste dall’articolo 20 del decreto legislativo 22 gennaio 2004, n. 28; q) documenti diffusi su supporto informatico; r) documenti diffusi tramite rete informatica non rientranti nelle lettere da a) a q)».

36] Giugno 2005.

37] Ricordiamo a proposito quanto affermato dall’art. 2 della Carta per la conservazione del patrimonio digitale cit. «Lo scopo della conservazione del patrimonio digitale è garantire che questo rimanga accessibile al pubblico. Pertanto, l’accesso ai materiali digitali, soprattutto quelli di dominio pubblico, dovrebbe essere libero da qualunque restrizione immotivata. Allo stesso tempo, le informazioni delicate e di carattere personale dovrebbero essere protette da qualunque forma di intrusione».

38] Un’interessante bibliografia sul tema del Web Archiving è segnalata in: «Digital Preservation - What’s New», Issue no. 9 (July-December 2004), <http://www.dpconline.org/graphics/whatsnew/issue9.html>. Tra i testi indicati si notino in particolare gli atti del convegno 4th International Web Archiving Workshop (IWAW’04), Bath, UK, 2004, eds. Julien Masanès, Andreas Rauber, <http://www.iwaw.net/04/index.html>.

39] <http://www.bncf.firenze.sbn.it/notizie/testi/comunicatositiWeb.htm>. Comunicato datato 20 maggio 2004.

40] Niels Brügger, Archiving websites: general considerations and strategies, Center for Internetforskning, 2005, <http://cfi.imv.au.dk/pub/boeger/bruegger_archiving.pdf>.

41] Come leggo, ad esempio, oggi un file prodotto nel 1985 da File Assistant? Il caso (ancora non pubblicato) del trasferimento della documentazione grafica vettoriale relativa ai lavori di restauro degli affreschi michelangioleschi della Cappella Sistina dal formato proprietario in cui erano stati sviluppati al formato DXF-DWG potrebbe essere in questo senso esemplare per le procedure messe in atto.



   
 
Copyright Minerva Project 2006-01, last revision 2006-01-30, edited by Minerva Editorial Board.
URL: www.minervaeurope.org/publications/qualitycriteria-i/indice0512/buzzancadigitfugit.html