vai al contenuto
 

Manuale per l'interazione con gli utenti del Web culturale
Prima edizione (Aprile 2009)
a cura di Pierluigi Feliciati e Maria Teresa Natale
MINERVA EC Working Group “Quality, Accessibility and Usability”


2.7      Gli utenti nel mondo globalizzato: la questione del multilinguismo

Sta affermandosi sempre di più la consapevolezza dell’importanza del multilinguismo per rendere il patrimonio culturale digitale europeo disponibile per tutti gli utenti. Il linguaggio è una delle barriere più significative per l’accesso al Web e, a causa di questa barriera, gran parte del patrimonio culturale digitale europeo non riesce ad essere trovato in Internet.

Il problema è complesso. Esistono circa 7000 lingue parlate in tutto il mondo, di cui approssimativamente 2200 hanno anche sistemi di scrittura, ma solo 300 hanno qualche tipo di strumento automatico per l’elaborazione del linguaggio. Solo in Europa, l’Unione Europea ha attualmente 23 lingue ufficiali, ma ce ne sono ben di più parlate correntemente. Comunque, nonostante questo panorama multilinguistico a livello globale, in Internet è ancora la lingua inglese a mantenere una posizione dominante, anche se sta perdendo forza rispetto al passato. È evidente che se pure le lingue nazionali devono essere protette e conservate per il futuro, devono essere offerti accessi multilinguistici in rete.

Grafico: Le tendenze del Web multilinguistico
Le tendenze del Web multilinguistico
(fonte: http://global-rearch.biz/globstats/evol.html)

Nella Società dell’Informazione, l’acquisizione e la diffusione della conoscenza in forma digitale dovrebbero trascendere i confini della lingua usata: se si sceglie di usare il Web per acquisire e diffondere il sapere, i contenuti non possono essere infatti disponibili in una sola lingua. Sia coloro che forniscono che coloro che fruiscono dell’informazione dovrebbero avere uguali opportunità, indipendentemente dalla lingua che preferiscono.

Quando parliamo di accesso all’informazione senza imporre barriere linguistiche o culturali ci riferiamo a un livello minimo di funzionalità che deve essere garantita: deve essere possibile trovare contenuti scritti in lingue straniere e poterli leggere, interpretare e collegare con altri contenuti scritti in lingue diverse.

Le ricerche sull’accesso multilinguistico all’informazione (MultiLingual Information Access o MLIA) si concentrano di conseguenza sulla conservazione, l’accesso, il recupero, la ricerca e la presentazione dell’informazione in una qualunque delle lingue conosciute nel mondo.

In particolare, si distinguono due aree principali di ricerca:

  • accesso in più lingue (multiple language access), con l’obiettivo di sviluppare specifiche tecnologie di navigazione e di presentazione, ad esempio per la codifica dei caratteri o per supportare le esigenze particolari di alcune lingue e script, per la internazionalizzazione e la localizzazione
  • individuazione e recupero di informazioni in più lingue (cross-language information discovery and retrieval – CLIR), per affrontare il problema delle ricerche fatte in una sola lingua in collezioni contenenti documenti in molte lingue, per poterli cioè filtrare, selezionare e collocare in un modo che sia facilmente interpretabile e utilizzabile.

Il problema principale (seppure non certamente l’unico) nella costruzione di un sistema CLIR è il confronto (match) tra la richiesta dell’utente e la collezione di documenti. Per far questo, sia le richieste che i documenti devono essere pre-processati e indicizzati – generalmente, usando tecniche di elaborazione del linguaggio (gestione dei segni – tokenisation, parole di chiusura – stop-words, stemming, analisi morfologica, decompounding ecc.). Sono adottati in genere vari approcci che comunque richiedono la traduzione delle richieste o dei documenti, oppure di entrambi. I sistemi che trattano più lingue possono basarsi su un interlingua oppure su una cosiddetta lingua pivot7. Le risorse per la traduzione possono essere di tipo Machine Translation (traduzione automatica, MT), corpora paralleli o compatibili, dizionari bilingue, thesauri a più lingue o interlingua concettuali. I sistemi più efficienti usano spesso una combinazione di più tecniche.

Le principali difficoltà per l’individuazione e recupero di informazioni in più lingue (CLIR) risiedono nella necessità di una corretta identificazione della lingua, della morfologia, dei nomi corretti, della terminologia, dei concetti espressi in più di una parola, delle frasi idiomatiche, delle ambiguità e polisemie. In particolare, i punti su cui si articola la sfida ancora in corso verso soluzioni soddisfacenti sono: l’elaborazione di molte lingue simultaneamente, riunendo I risultati provenienti da diverse fonti, e la successiva presentazione dei risultati in forma adeguata per uno specifico utente. I sistemi CLIR interattivi possono aiutare gli utenti a localizzare e ad identificare documenti rilevanti in lingua straniera, traducendo la richiesta effettuata attraverso una sua riformulazione, selezionando e/o identificando i documenti rilevanti.

Offrire servizi di recupero multilinguistici per collezioni multimediali, poi, non è un problema secondario. Media diversi vengono elaborati in modi differenti e soffrono di diversi tipi di errori di indicizzazione: i documenti parlati sono trattati attraverso tecniche di riconoscimento vocale. I documenti scritti sono indicizzati usando tecniche OCR (Optical Character Recognition), mentre le immagini necessitano di sistemi basati su modelli. Per rendere possibile la ricerca multimediale, in questi casi, è necessaria l’integrazione di diverse tecnologie.

In ogni caso, adottare funzionalità MLIA è complesso e implica questioni a diverso livello. Per i portali che supportano il multilinguismo, è opportuno decidere quali e quante lingue si intende trattare, quanti livelli del sito devono essere in più lingue e cioè debbano essere trattati gli aggiornamenti. Per ricerche in una sola lingua in contesti in più lingue, dovrebbero essere affrontati gli aspetti che concernono la codificazione e la rappresentazione dell’informazione (prima di tutto con l’identificazione e l’indicizzazione della specifica lingua, come già accennato). Per le ricerche cross-language, devono essere acquisite, mantenute e aggiornate regolarmente appropriate risorse di traduzione automatica. Infine, la presentazione dei risultati deve essere sempre in una forma che possa essere efficacemente interpretabile e utilizzabile dagli utenti.

Nel campo del patrimonio culturale, le questioni MLIA sono le stesse finora accennate, con in più la necessità di una regolazione fine delle tecniche, che tenga conto della specifica terminologia, dei media utilizzati e dei profili degli utenti (vedi 2.4).


2.7.1      Un caso di studio: il progetto Multimatch

Sul Web, contenuti che riguardano il patrimonio culturale sono dovunque, sia in spazi tradizionali come siti di biblioteche, musei, gallerie e archivi audiovisivi che in riviste e quotidiani popolari, e sono in molte lingue e in molte forme.

Il motore di ricerca Multimatch8 rappresenta un primo tentativo per offrire una soluzione completa e integrata per ricercare contenuti culturali sul Web. Supporta infatti il recupero di oggetti digitali culturali attraverso diverse modalità:

  • Ricerca a testo libero. Simile a quella dei motori di ricerca generalisti, come Google, con la differenza che Multimatch ambisce a fornire risposte più precise, visto che l’informazione è tratta da fonti culturali selezionate e supportate le ricerche multilinguistiche
  • Ricerca multimediale, basata su procedure di confronto (matching) per similarità e su tecniche di estrazione  automatica di informazioni
  • Ricerca basata sui metadati. L’utente, in questo caso, può selezionare uno degli indici di metadati disponibili e specificare gli elementi su cui effettuare la ricerca (ad esempio, l’autore), più aggiungere termini-chiave aggiuntivi
  • Una specifica funzionalità di navigazione, infine, permette all’utente di muoversi nelle collezioni coperte da Multimatch attraverso una struttura tipo web directory basata sull’ontologia Multimatch.

Per quanto riguarda le funzionalità multilinguistiche di Multimatch, gli utenti sono messi in grado di formulare le proprie richieste in una specifica lingua e recuperare i risultati in una o in tutte le lingue previste nell’attuale prototipo (inglese, italiano, spagnolo, olandese, tedesco e polacco), a secondo delle proprie preferenze. Sono mantenuti a questo scopo sei diversi indici mono-linguistici.

Le ricerche cross-language, inoltre, vengono eseguite attraverso una combinazione di traduzione automatica e di dizionari specifici per il dominio culturale. L’utente può selezionare la fonte e le lingue su cui effettuare la propria ricerca, come pure la procedura di traduzione tra quelle proposte dal sistema.

Il lessico per il dominio specifico è stato sviluppato a partire da un vocabolario del patrimonio culturale costruito su corpora multilinguistici scelti, in particolare da Wikipedia, In aggiunta agli indici mono-lingua è stato creato e viene aggiornato un indice multilingue, a partire dalla traduzione in inglese di tutti i documenti, per garantire le funzionalità di ricerca multilinguistica. L’efficienza della ricerca è rinforzata infine dall’uso di espansioni automatiche del thesaurus e dal feedback di rilevanza.


4 «Una lingua pivot o metalinguaggio è una lingua naturale o artificiale usata come lingua intermediaria per le traduzioni», <http://it.wikipedia.org/wiki/Lingua_pivot>.

5 Vedi <http://www.multimatch.eu> Il consorzio, coordinato da Pasquale Savino, è composto da: CNR-Istituto di Scienza e Tecnologie dell’Informazione (Pisa), University of Sheffield, Dublin City University, University of Amsterdam, University of Geneva, Universidad Nacional de Educación a Distancia, OCLC, WIND Telecomunicazioni S.p.A., Cultural Heritage, Fratelli Alinari Istituto Edizioni Artistiche SpA, Netherlands Institute for Sound and Vision, University of Alicante – Biblioteca Virtual Miguel de Cervantes.


cover of  handbook

 

About

Structure

Interoperability

Quality, accessibility, usability

Best Practices