MINERVA Website. Manuale per la qualità dei siti Web pubblici culturali

Path: Home | Publications | Manuale | Indice | Verso l'interoperabilità semantica

Manuale per la qualità dei siti Web pubblici culturali


	About MINERVA and MINERVA Plus
	Structure
	Partners NRG Working Groups
	NPP
	Good practices
	Competence centres
	Digitisation guidelines
	European and national rules on Web Applications
	Enlargement
	Events
	References
	Publications

Verso l'interoperabilità semantica
Oreste Signore

1.Introduzione

Condividere la conoscenza sul Web significa poter disporre di strumenti e tecnologie che consentano di esprimere i contenuti, strutturarli e presentarli in modo adeguato, rendendone esplicita la semantica e consentendo la fruizione dell’informazione a tutti, indipendentemente dal particolare retroterra culturale e dal contesto tecnologico.

Nel settore dei beni culturali, in cui coesistono tradizioni e impostazioni culturali ben radicate e difficilmente modificabili, è importante raggiungere l’interoperabilità semantica, abbattendo le differenze culturali, senza imporre a nessuno di rinunciare alle proprie. Questa problematica sembra trovare possibili soluzioni nel contesto dell’attività di ricerca nota come semantic Web, che coagula competenze e interessi diversi, perseguendo l’obiettivo di realizzare un Web in cui assume grande rilevanza l’interazione tra macchine, e le informazioni, arricchite da metadati, possono essere utilizzate in maniera più efficace da agenti software intelligenti.

2.Le esigenze

2.1. La specificità del settore dei beni culturali

Una caratteristica essenziale del settore dei beni culturali è l’approccio altamente multi e interdisciplinare. Gli oggetti culturali non sono entità isolate, ma ogni informazione va posta nel suo contesto spaziale, temporale e culturale, secondo paradigmi associativi basati su spazio, tempo e relazioni semantiche tra concetti, e talvolta su loro combinazioni. Gli approcci comunemente adottati in altri ambienti applicativi non sempre sono adeguati. Per esempio, l’aspetto temporale ha una valenza particolare, in quanto sia la geografia che il significato di alcuni termini possono essere variati nel tempo, e molte date sono note con approssimazione, a volte, anche di secoli, per cui occorre definire un’adeguata algebra temporale che permetta di gestire correttamente le date (puntuali o durative), il loro ordinamento e le eventuali sovrapposizioni o disgiunzioni di intervalli temporali.

Inoltre, il dominio dei beni culturali è caratterizzato dalla transnazionalità delle informazioni. Gli artisti possono essere noti, nei vari paesi, con nomi diversi, esattamente come accade con i toponimi. Questi problemi rendono particolarmente delicata la realizzazione di siti multilingue, che non sono banalmente interfacce con comandi in varie lingue, ma sistemi capaci di adattarsi a culture e conoscenze diverse¹, per le quali anche elementi informativi che appaiono banali possono essere del tutto incomprensibili o semanticamente ambigui².

In un settore così semanticamente ricco, in cui convivono e devono interoperare persone con tradizioni culturali solide e diverse, è praticamente impossibile riuscire a definire un modello di rappresentazione unico.

Infine, ma non ultimo per importanza, gli utenti di un sito web culturale sono persone dalle più svariate competenze e con interessi molto diversi, ed è necessario potersi adattare alle diverse tipologie di utente, fornendo supporti per la comprensione delle informazioni, o informazioni a diverso livello di dettaglio, o interazioni di tipo diverso³.

2.2.Knowledge management e ricerca di informazioni

Due processi essenziali nel knowledge management sono, da un lato, la possibilità di reperire le fonti di conoscenza rilevanti per il problema specifico, e, dall’altro, fornire le fonti di conoscenza da utilizzare per risolvere i problemi. Schematicamente, possiamo individuare cinque processi: acquisizione, rappresentazione, elaborazione, condivisione e utilizzo della conoscenza. Il Web, e in particolare il semantic Web, che ne è la naturale evoluzione, costituisce un formidabile componente per supportare gran parte di questi processi. Un elemento significativo è che la conoscenza codificata nel semantic Web è rappresentata in maniera elaborabile dalla macchina, e quindi può essere utilizzata da componenti automatizzati, denominati agenti software.

La ricerca di informazioni è uno dei principali punti deboli del Web, nonostante il gran numero di motori di ricerca esistenti, che sono poveri di semantica sia in fase di indicizzazione che in fase di ricerca. In fase di ricerca viene consentito di combinare le parole con operatori di contesto (“tutte le parole”, “una parola qualunque”, “nel titolo”), ma in definitiva il risultato scaturisce sempre da una ricerca sulla presenza di parole chiave e dall’identificazione dei documenti più affini alla domanda posta.

L’esistenza di proposizioni più ricche dal punto di vista espressivo permette invece agli utenti di ritrovare in maniera più facile ed efficace le informazioni necessarie. Tra l’altro, la presenza di queste proposizioni condizionali consente di indicizzare le risorse esistenti sul Web in maniera più ricca rispetto al metodo tradizionale di associare alle risorse parole chiave o concetti. Diventa allora possibile formulare richieste più sofisticate, migliorando sia la precisione delle risposte ottenute che il richiamo dei documenti pertinenti. Giusto a titolo di esempio, in assenza di questo tipo di arricchimento una query che richiedesse la restituzione di tutti i documenti in cui compaiono le parole chiave:“Giulio II” AND “Michelangelo” restituirebbe sia i documenti che descrivono opere/eventi in cui Giulio II è committente di un’opera di Michelangelo che quelli in cui Giulio II è soggetto rappresentato in un’opera di Michelangelo.

3.Le ontologie

Nell’organizzare le informazioni, si ricorre spesso al meccanismo della classificazione. Tale meccanismo può presentare diversi problemi, derivanti essenzialmente dalle differenze di dominio, terminologia, scelta e diverso significato delle varie caratteristiche ritenute importanti, differenze tra le relazioni più significative.

È importante distinguere le ontologie dai meccanismi di classificazione. Questi ultimi prestano attenzione alle esigenze di accesso all’informazione, basato su criteri predeterminati codificati mediante elementi sintattici. Le ontologie, invece, si concentrano sul significato dei termini e su natura e struttura di un dominio. Ne deriva che i problemi essenziali sono sostanzialmente quello della corrispondenza semantica (semantic matching) e dell’integrazione semantica.

Sono spesso importanti anche sottili differenze tra le diverse terminologie, e la definizione di vocabolari standard non è la soluzione al problema: essi sono il risultato di un’impresa lunga e difficile, non sempre si adattano bene, soprattutto in presenza di domini di conoscenza eterogenei, e, infine, non sempre vengono utilizzati in maniera corretta. Un’ontologia, almeno nel senso in cui questo termine viene impiegato nel settore informatico, è un oggetto specifico, progettato per esprimere il senso inteso (intended meaning) di un vocabolario. Una caratteristica importante di un’ontologia è il suo livello di precisione, cioè il modo in cui è in grado di esprimere i concetti in maniera non ambigua. Una buona ontologia è in grado di esprimere un concetto con un buon grado di copertura e di precisione rispetto al modello inteso. Il livello di formalizzazione dei concetti, e quindi di precisione ontologica, cresce a mano a mano che si passa da cataloghi, glossari, tassonomie (sistemi di classificazione in cui i termini sono in relazione gerarchica, come in Iconclass), a tesauri (vocabolari controllati strutturati in modo da evidenziare le relazioni semantiche tra termini e concetti, come AAT) o, infine, a teorie assiomatizzate [DigiCULT].

In un contesto ampio e decentralizzato come quello del patrimonio culturale e del Web, assume una particolare importanza l’integrazione dell’informazione. In questo processo risulta essenziale il ruolo giocato da una core ontology, il cui obiettivo è fornire un modello globale ed estensibile in cui possono essere messi in corrispondenza e integrati i dati provenienti da fonti eterogenee. Questa forma canonica è in grado di fornire una singola base di conoscenza per strumenti e servizi cross-domain (resource discovery, browsing, data mining). L’esistenza di un unico modello riduce la complessità combinatoria che deriverebbe dal tentativo di mettere in corrispondenza a due a due i singoli formati di metadati o le ontologie.

La distinzione [Doerr 2003] tra una core ontology e la definizione di core metadata (come Dublin Core) è sottile ma importante. Pur essendo entrambe finalizzate all’integrazione dell’informazione, esse differiscono per quanto concerne l’importanza attribuita alla comprensibilità da parte di un lettore umano. I metadati sono compilati e utilizzati principalmente da esseri umani, mentre una core ontology è un modello formale utilizzato da strumenti che provvedono all’integrazione di varie fonti di dati e svolgono varie altre funzioni. Di conseguenza, mentre i fattori umani, e principalmente la leggibilità, costituiscono un elemento cardine nella definizione dei core metadata, una core ontology può accettare un livello di complessità maggiore, privilegiando la completezza e la correttezza logica rispetto alla comprensibilità umana.

Un interessante esempio di core ontology è CIDOC-CRM, costituita da circa 80 classi e 130 relazioni, che si pone come modello di riferimento per il patrimonio culturale e per altri contesti, e consente di supportare, ad esempio, il ragionamento spaziale e quello temporale [CIDOC].

4.Il (semantic) Web

Il Web, essendo un’applicazione costruita su Internet, ne ha ereditato i principi informatori: interoperabilità, evoluzione (apertura alle tecnologie emergenti) e decentralizzazione (senza dubbio il principio più nuovo e difficile da applicare).

Due applicazioni sono interoperabili se si possono scambiare dati e servizi in modo efficace e consistente, permettendo la comunicazione tra piattaforme hardware e software eterogenee. Tuttavia, l’interoperabilità non è un aspetto meramente tecnologico. Bisogna tenere presenti le differenti culture e il diverso modo di percepire i concetti, quindi occorre considerare non solo l’interoperabilità tecnologica, ma anche quella semantica.

4.1. I metadati

Nel navigare sul Web, si seguono dei link, che portano a quella che formalmente viene detta risorsa (resource) identificata univocamente da un URI⁴. Le informazioni sulla risorsa⁵ vengono generalmente dette metadati. Si può quindi dire che i metadati sono informazioni, comprensibili dalla macchina, relative a una risorsa web o a qualche altra cosa. Il punto chiave è il fatto che i metadati sono comprensibili dalla macchina (machine understandable) e quindi costituiscono un tipo di informazione che può essere utilizzata in maniera opportuna dai software agent.

Va tenuto presente che i metadati sono dati, e quindi possono essere memorizzati come dati e essere descritti da altri metadati, e così via.

4.2. Il Resource Description Framework

L’uso efficace dei metadati richiede che vengano stabilite delle convenzioni per la semantica, la sintassi e la struttura. Le singole comunità interessate alla descrizione delle loro risorse specifiche definiscono la semantica dei metadati pertinenti alle loro esigenze. La sintassi, cioè l’organizzazione sistematica dei data element per l’elaborazione automatica, facilita lo scambio e l’utilizzo dei metadati tra applicazioni diverse. La struttura può essere vista come un vincolo formale sulla sintassi, per una rappresentazione consistente della semantica.

Resource Description Framework (RDF) è lo strumento base per la codifica, lo scambio e il riutilizzo di metadati strutturati, e consente l’interoperabilità tra applicazioni che si scambiano sul Web informazioni machine-understandable. RDF permette di definire la semantica dei tag XML, e fornisce un modello per descrivere le risorse⁶ che hanno delle proprietà (o anche attributi o caratteristiche).

Il data model RDF, che consente di rappresentare statement RDF in modo sintatticamente neutro, è molto semplice ed è basato su tre tipi di oggetti: Resources (sempre individuate da un URI), Properties (un aspetto specifico, identificato da un nome, che assume un valore), Statements (una tripla composta da un soggetto, un predicato e un oggetto, ovvero una tripla composta da una risorsa, una proprietà e un valore).

RDF, che permette di descrivere anche fatti complessi, supporta l’utilizzo di convenzioni che rendono più agevole l’interoperabilità tra insiemi separati di metadati, e consente di pubblicare vocabolari machine readable, ma anche leggibili da utenti umani, definiti dalle singole comunità disciplinari, favorendo enormemente il riuso e l’estensione della semantica tra comunità diverse.

RDF identifica univocamente le proprietà mediante il meccanismo dei namespace XML [XMLns], che forniscono un metodo per identificare in maniera non ambigua la semantica e le convenzioni che regolano l’ utilizzo delle proprietà, identificando l’authority che gestisce il vocabolario. Uno degli esempi più noti è la Dublin Core Initiative [DC]. Si può utilizzare un namespace XML per identificare in maniera non ambigua lo schema per il vocabolario Dublin Core puntando alla risorsa Dublin Core che ne definisce la semantica. La descrizione di una risorsa può utilizzare le proprietà definite nel namespace Dublin Core, o alcune di esse, eventualmente aggiungendo altre proprietà che rispondano a esigenze specifiche, semplicemente puntando al namespace che ne definisce la semantica.

È importante sottolineare che siamo così in presenza di un’architettura decentralizzata e peer-to-peer, in cui le varie comunità disciplinari hanno a priori pari dignità e possono conquistarsi la loro autorevolezza.

4.3. L’architettura del semantic Web

Nella visione di Tim Berners-Lee, il semantic Web⁷ ha un’architettura a livelli (fig. 1).

Per chiarezza di terminologia, va ricordato che la filosofia di base del Web è quella di uno spazio informativo universale, navigabile, con un mapping da URI (Uniform Resource Identifier) alle risorse. Il semantic Web potrà funzionare solo se le macchine potranno accedere a un insieme strutturato di informazioni e a un insieme di regole di inferenza da utilizzare per il ragionamento automatico. La sfida del semantic Web, quindi, è fornire un linguaggio per esprimere dati e regole per ragionare sui dati, che consenta l’esportazione sul Web delle regole da qualunque sistema di rappresentazione della conoscenza.

XML (con Name Space e xmlschema), che consente di dare ai documenti una struttura arbitraria, gioca un ruolo di base. RDF può essere usato per esprimere il significato, asserendo che alcuni particolari elementi hanno delle proprietà (per esempio, autore-di).

Un terzo componente è l’ontology (livello ontologico), inteso come il contenitore che definisce in modo formale le relazioni fra i termini. Le ontologie possono svolgere un ruolo fondamentale nel migliorare il funzionamento del Web (ricerca di concetti, collegamento delle informazioni contenute in una pagina alle strutture di conoscenza associate, etc.). Il linguaggio definito dal W3C [OWL] per definire ontologie strutturate, in architettura web, è OWL (Ontology Web Language).

Il livello logico è il livello immediatamente superiore al livello ontologico. A questo livello le asserzioni esistenti sul Web possono essere utilizzate per derivare nuova conoscenza. Dato che i sistemi deduttivi non sono normalmente interoperabili, si potrebbe pensare di definire un linguaggio universale per rappresentare le dimostrazioni. I sistemi potrebbero quindi autenticare con la firma digitale queste dimostrazioni ed esportarle ad altri sistemi che le potrebbero incorporare nel semantic Web.

La firma digitale (digital signature) è di significativa importanza in diversi strati nel modello astratto del semantic Web. In questo modello si ritiene necessaria un’infrastruttura in cui le parti possano essere riconosciute e accettate come credibili in specifici domini. Con una granularità così fine, la firma digitale potrebbe essere utilizzata per stabilire la provenienza delle ontologie e delle deduzioni, oltre che dei dati.

5.Un’architettura possibile

Riguardo al semantic Web, è opportuno sottolineare che già da molti anni esistono, nel settore dell’Intelligenza Artificiale, sistemi per la gestione della conoscenza, in grado di operare ragionamenti e deduzioni.

Una caratteristica importante del semantic Web è, coerentemente con i principi del Web, la sua totale decentralizzazione e l’interoperabilità tra applicazioni, macchine, ontologie diverse. In questa visione, l’opera di armonizzazione delle ontologie e degli schemi descrittivi viene affidata ad agenti software che, disponendo di una rappresentazione della conoscenza e di regole di deduzione espresse con un linguaggio interoperabile, operano per armonizzare conoscenze diverse.

Un problema rilevante nel considerare l’interoperabilità semantica è costituito dall’armonizzazione degli schemi descrittivi e delle ontologie, due aspetti fortemente interconnessi. Infatti, va tenuto presente che l’organizzazione dei concetti (aspetto ontologico) non può essere considerata a sé stante, scorrelata dallo schema adottato per rappresentare le informazioni. In altri termini, la complessità derivante, per esempio, dalla specializzazione degli oggetti per funzione o tipo (per esempio, arco rampante, vasetto per unguenti, colonna a tortiglione) deve necessariamente trovar posto o in un sistema di classificazione (thesaurus) o in un’articolazione della scheda descrittiva (quindi campo, sottocampo, attributo). Ne consegue che l’interoperabilità semantica tra collezioni non può essere affrontata semplicemente trovando degli equivalenti terminologici, impresa peraltro già non semplice, ma deve tener conto di come una determinata organizzazione dei concetti può essere tradotta verso uno specifico schema di rappresentazione.

Un’architettura possibile, coerente con quella del semantic Web, vede un ruolo centrale giocato da agenti software intelligenti che sfruttano la rappresentazione del modello mentale dell’utente per personalizzare il contenuto dei documenti, effettuare le ricerche sul Web, proporre un adeguato paradigma di interazione [Signore 2005].

Tutti i dati sono corredati di metadati, la cui semantica è coerente con quella definita dal modello concettuale del dominio. Le possibili relazioni tra i vari elementi descrittivi e i metadati sono contenute in uno spazio dei concetti (concept space), che viene utilizzato dagli agenti software per individuare le possibili associazioni tra i documenti, e implementare gli adeguati paradigmi di interazione (spazio, tempo, classificazione, e loro combinazioni). Lo spazio dei concetti non è necessariamente unico, e quindi è da prevedere una funzione di traduzione e armonizzazione tra uno schema descrittivo (dei dati o della terminologia) all’altro.

6.Conclusioni

Il progetto MINERVA costituisce un sicuro punto di riferimento per realizzare siti di qualità, fruibili anche da persone che hanno limitazioni fisiche o funzionali. Un ulteriore passo verso la qualità dei siti web culturali è costituito dall’interoperabilità semantica. Il contesto tecnologico in cui va cercata una soluzione è quello del semantic Web, che prevede un’ampia decentralizzazione e una forte interazione macchina-macchina e permette di valorizzare lavori importantissimi nel settore della modellizzazione della conoscenza.

Riferimenti bibliografici

[CIDOC] The CIDOC Conceptual Reference Model, <http://cidoc.ics.forth.gr/>

[DC] Dublin Core Metadata Initiative, < http://www.dublincore.org/>

[DigiCULT] DigiCULT - Towards a Semantic Web for Heritage Resources, Thematic Issue 3, May 2003, < http://www.digicult.info/downloads/ti3_high.pdf>

[Doerr 2003] M. Doerr, J. Hunter, C. Lagoze, Towards a Core Ontology for Information Integration, «Journal of Digital Information», vol. 4, issue 1, article 169, 2003-04-09, (April 2003), < http://jodi.ecs.soton.ac.uk/Articles/v04/i01/Doerr/>

[Martelli 2002] S. Martelli, O Signore, Semantic Characterisation of Links and Documents, «ERCIM News», n. 51, Special: Semantic Web, October, 2002, < http://www.ercim.org/publication/Ercim_News/enw51/signore.html>

[OWL] Web Ontology Language (OWL), <http://www.w3.org/2004/OWL/>

[RDF] Resource Description Framework (RDF), < http://www.w3.org/RDF/>

[SemWeb] Semantic Web, <http://www.semanticweb.org/>

[Signore 2001] O. Signore, Culture across Cultures: a Quality Challenge, Experts Meeting on European Cultural Heritage on the Web, Position paper, 17 luglio 2001, < http://www.w3c.it/papers/cultureAcrossCultures.pdf>

[Signore 2002] O. Signore, A Simple Architecture for Adaptive Hypertext, Adaptive Hypermedia and Adaptive Web-Based Systems, Proceedings of Second International Conference, AH2002, Malaga, Spain, May 2002, Lecture Notes in Computer Science, n. 2347, Springer Verlag, p. 568-571.

Signore 2003] O. Signore, Strutturare la conoscenza: XML, RDF, Semantic Web - Clinical Knowledge 2003 (1st edition) - Udine, 20-21 September 2003, <http://www.w3c.it/papers/ck2003.pdf, http://www.w3c.it/talks/ck2003/>

[Signore 2004] O. Signore, Representing Knowledge in Semantic Cultural Web - EVA 2004 Jerusalem Conference on the Digitisation of Cultural Heritage - Jerusalem, 11-12 October 2004, < http://www.w3c.it/talks/eva2004Jerusalem/>

[Stevenson 2003] A. Stevenson, M. Addis , M. Boniface, S. Goodall, P. Grimwood, S. Kim, P. Lewis, K. Martinez, Semantic Web techniques for multimedia museum information handling, < http://eprints.ecs.soton.ac.uk/8920/01/SCULPTEUR_CIDOC_2003.pdf>

[Signore 2005] O. Signore, Ontology Driven Access to Museum Information - CIDOC 2005 Documentation & Users, Proceedings of the CIDOC Annual Conference, Zagreb, May 2005, < http://www.w3c.it/papers/cidoc2005.pdf> (slides: <http://www.w3c.it/talks/2005/cidoc2005/>)

[TBL1999] T. Berners-Lee, Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web by Its Inventor, San Francisco: Harper, 1999.

[TBL2001] T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web, Scientific American, May 2001, < http://www.scientificamerican.com/2001/0501issue/0501berners-lee.html>

[WorkshopSW] Progetto MINERVA: 1° Workshop: Rappresentazione della conoscenza nel semantic Web culturale,Roma, 6 luglio 2004, < http://www.w3c.it/events/minerva20040706/>

[XMLns] Namespaces in XML - World Wide Web Consortium Recommendation, 14-January-1999, http://www.w3.org/TR/REC-xml-names/

1] Si può quindi parlare di barriere culturali, unostacolo difficile da superare, ma talvolta sottovalutato [Signore 2001].

2] Per esempio, una data espressa con il calendario gregoriano nella notazione europea potrebbe essere ambigua, se espressa numericamente (per esempio, 9/11), per un cittadino USA. Anche se espressa in chiaro, soprattutto se si riferisce a periodi remoti, potrebbe essere del tutto priva di significato per un utente di cultura musulmana o ebraica.

3] Si può parlare, in questi casi, di siti adattabili e adattivi [Signore 2002].

4] URI (Uniform Resource Identifier). è il generico insieme di tutti i nomi/indirizzi che costituiscono le brevi sequenze di caratteri che fanno riferimento ad una risorsa. URL (Uniform Resource Locator) è un termine informale, non più utilizzato nelle specifiche tecniche, associato con gli schemi URI più noti e diffusi (http, ftp, mailto ecc.).

5] Nel linguaggio corrente una risorsa viene anche detta “documento” od “oggetto”, per mettere in evidenza il fatto che sia leggibile da un essere umano o da una macchina.

6] RDF definisce una risorsa come un qualsiasi oggetto che sia identificabile univocamente mediante un URI.

7] L’ntera comunità scientifica sta investendo molte energie nel settore del semantic Web. Molti riferimenti utili si trovano in [SemWeb].

Copyright Minerva Project 2006-01, last revision 2006-01-30, edited by Minerva Editorial Board.
URL: www.minervaeurope.org/publications/qualitycriteria-i/indice0512/siognoreinteropsemantica.html