Relazione elegante

TEI in digital Library: an Italian case

Fabio Ciotti

Il concetto di biblioteca digitale

Negli ultimi anni si avuta una crescente attenzione teorica e metodologica sul tema delle biblioteche digitali, tanto da giustificare la creazione di un dominio disciplinare autonomo. Alla costituzione di questo dominio hanno fornito importanti contributi vari settori della ricerca informatica e sui nuovi media, come l’area del text processing, dell’information retrieval e degli agenti software, della grafica computerizzata, della telematica e delle reti computer. Contributi di grande rilievo sono venuti anche dalle ricerche sui sistemi informativi distribuiti e dalla teoria degli ipertesti, nel cui contesto si può rintracciare la genealogia stessa dell’idea di "biblioteca digitale".

Come noto i primi spunti in questo campo precedono la nascita di Internet e persino lo sviluppo dei computer digitali. Ci riferiamo al classico articolo di Vannevar Bush "How we may think" dove il tecnologo americano immagina l’ormai celeberrimo Memex. Lo stesso Bush, introducendo la descrizione del suo ingegnoso sistema di ricerca e consultazione di documenti interrelati, lo definisce una "sorta di archivio e biblioteca privati" [Bush 1945, in Nelson 1992: 1/38].

Una approssimazione maggiore all’idea di biblioteca digitale (sebbene il termine non compaia esplicitamente), si ritrova nel concetto di docuverso elaborato da Ted Nelson, cui dobbiamo anche la prima formulazione esplicita dell’idea di ipertesto digitale [Nelson 1992]. Nelson, sin dai suoi scritti degli anni 60, descrive il suo sistema ipertestuale Xanadu come un archivio distribuito su rete di documenti individuali ed identificabili, dotato di un sistema di indirizzamento e di reperimento. Vanno poi ricordate le fondamentali ricerche e sperimentazioni condotte dal gruppo di studiosi della Brown University che, a cavallo tra la fine dello scorso decennio e l’inizio dell’attuale, lavorarono sul sistema ipermediale Intermedia [Landow, 1998]. La convergenza teorica e tecnica tra biblioteche digitali e sistemi ipertestuali distribuiti trova infine pieno compimento con la nascita e lo sviluppo di World Wide Web. L’ambiente ipertestuale della rete Internet, infatti, ha fornito un ambiente ideale per la sperimentazione concreta e diffusa di tutta l’elaborazione teorica accumulata in questo settore negli anni passati.

Tuttavia, se la teoria degli ipertesti distribuiti rappresenta un punto di riferimento nella discussione relativa alla struttura e alle funzioni di una biblioteca digitale, essa non consente di distinguere con sufficiente chiarezza tra l’idea generica di un sistema di pubblicazione elettronica di documenti, l’idea di ipertesto distribuito e una nozione più formale di biblioteca digitale. Partendo da questa insufficiente determinazione, potremmo annoverare tra le biblioteche digitali tanto una pubblicazione su supporto ottico di un insieme di testi, basata su un qualche sistema ipertestuale, quanto l’intero World Wide Web.

In effetti, analizzando la letteratura ci accorgiamo che il suggestivo termine "biblioteca digitale" funziona da "termine ombrello" (per dirla con Eco) sotto il quale si riparano concezioni e conseguentemente applicazioni assai diverse. Ad esempio nei documenti di presentazione della Digital Library Initiative si legge:

Information sources accessed via the Internet are ingredients of a digital library. Today, the network connects some information sources that are a mixture of publicly available (with or without charge) information and private information shared by collaborators. They include reference volumes, books, journals, newspapers, national phone directories, sound and voice recordings, images, video clips, scientific data (raw data streams from instruments and processed information), and private information services such as stock market reports and private newsletters. These information sources, when connected electronically through a network, represent important components of an emerging, universally accessible, digital library.

Questa definizione, alquanto vasta e sotto molti rispetti generica, non fornisce adeguati strumenti per discriminare tra una biblioteca digitale e qualsiasi insieme di informazioni su supporto digitale, alimenta miti e convinzioni alquanto confuse sulle funzioni e potenzialità delle biblioteche digitali, e soprattutto non permette di dedurre un insieme di requisiti che un sistema di biblioteca digitale dovrebbe soddisfare. Se il termine "biblioteca digitale" individua un’aerea specifica di applicazione, occorre precisare in che senso la determinazione di digitale si applica alla nozione di biblioteca; in che modo una biblioteca digitale si differenza da una tradizionale e in che modo invece ne eredita funzioni e caratteristiche; come, infine, sia possibile distinguerla da altri sistemi informativi distribuiti (come appunto un singolo sito Web, o lo stesso Web in generale).

PER una formalizzazione della nozione di biblioteca digitale

Un punto di partenza per arrivare ad una più puntuale formalizzazione della nozione di biblioteca digitale può essere rintracciato nella seguente definizione, elaborata nel corso del Workshop on On-line Access to Digital Libraries organizzato dalla IBM nel maggio 1994:

A digital library is a machine readable representation of materials which might be found in a university library together with organizing information intended to help users find specific information. A digital library service is an assemblage of digital computing, storage, and communications machinery together with the software needed to reproduce, emulate, and extend the services provided by conventional libraries based on paper and other material means of collecting, storing, cataloging, finding, and disseminating information. A full service digital library must accomplish all essential services of traditional libraries and also exploit digital storage, searching, and communication. [Gladney et. al. 1994: 5]

Sulla scorta di questa definizione, possiamo distinguere tra la nozione astratta di "biblioteca digitale" e la nozione funzionale ed applicativa di "servizio di biblioteca digitale".

La nozione astratta di biblioteca digitale concerne la rappresentazione digitale del contenuto informativo di una biblioteca e delle metainformazioni (o metadati, secondo la terminologia anglosassone) atte al reperimento di specifiche sezioni al suo interno. Tale contenuto ha la forma di un insieme di documenti dotato di un duplice livello di organizzazione.

In primo luogo i documenti non sono unità indifferenziate, ma oggetti complessi dotati di una struttura interna che gioca un ruolo fondamentale ai fini del reperimento e della fruizione dell’informazione che veicolano. Come hanno rilevato Furuta [1995] e più recentemente Renear [1997b], questa struttura gioca un ruolo importante nella rappresentazione digitale di un singolo documento e di conseguenza in quelle di una biblioteca, che in prima istanza è una collezione di documenti:

Arguably, a digital library is, if not a collection of documents, at least a structure of "document-like" material. If this is so, then the investigation of documents -- of their essential nature and composition -- must be at the core of the digital libraries research agenda. [Renear, 1997b]

In secondo luogo, il contenuto informativo di una biblioteca si distingue da un generico insieme di documenti in quanto dotato di un’organizzazione complessiva dovuta ad un agente intenzionale distinto dai creatori dei singoli documenti in essa contenuti. Tale organizzazione si manifesta nella biblioteca tradizionale mediante la classificazione, la soggettazione e l’indicizzazione. Questi strumenti, infatti, costruiscono una rete virtuale di relazioni tematiche e concettuali tra i documenti presi come unità.

La biblioteca digitale fornisce un’opportunità di notevole potenziamento di tale "funzione organizzativa". L’idea di rete di relazioni tematiche potenziali, infatti, si presta in modo diretto a diventare la semantica di un sistema ipertestuale sufficientemente complesso (ma di un grado di complessità superiore all’attuale architettura informativa del Web, ad esempio), in specie se questo si innesta su una collezione di documenti dotati di struttura interna esplicita, come evidenziato prima. Infatti in questo caso è possibile interconnettere non solo le unità documentali prese come tutto ma anche i componenti interni di ogni singolo documento.

Alla luce di queste riflessioni definiamo "biblioteca digitale" una collezione di documenti digitali strutturati (sia prodotti mediante digitalizzazione di originali materiali, sia realizzati ex-novo), dotata di un’organizzazione complessiva coerente di natura semantica e tematica, che si manifesta mediante un insieme di relazioni interdocumentali e intradocumentali e mediante un adeguato apparato di metadata.

In questo senso possiamo distinguere una biblioteca digitale da un insieme non organizzato di informazioni assolutamente eterogenee come World Wide Web, ma anche da molti archivi testuali che attualmente sono disponibili su Internet e che si presentano come "depositi testuali" piuttosto che come vere e proprie biblioteche.

Struttura e requisiti di un "sistema di biblioteca digitale"

La definizione che abbiamo proposto nel paragrafo precedente individua un modello strutturale astratto della biblioteca digitale. La nozione di "servizio di biblioteca digitale", invece, attiene alle risorse tecnologiche (risorse hardware, sistemi di rete, software di stoccaggio dei dati, interfacce utente e sistemi di information retrieval) necessarie ad implementare tale modello, e di conseguenze individua le funzioni ed i servizi che vengono messi a disposizione degli utenti. Non possiamo in questa sede analizzare le architetture informative che sono state proposti in sede teorica o adottate nelle varie sperimentazioni in corso. Ci soffermeremo piuttosto sull’aspetto funzionale.

Un punto di partenza naturale per questa indagine è costituito dall’analisi dei servizi e delle funzioni svolte da una biblioteca convenzionale, che possiamo articolare nelle seguenti aree: acquisizione e certificazione dei documenti; conservazione dei documenti; analisi catalogazione e classificazione dei documenti; supporto al reperimento dei documenti; consultazione e distribuzione dei documenti all’utenza. Come suggeriscono Gladney et. al., un sistema di biblioteca digitale deve fornire almeno gli stessi servizi funzionali di una biblioteca convenzionale (chiaramente modellizzati mediante processi computazionali). Resta da discutere se le modalità di implementazione di tali funzioni in ambiente digitale costituisca un salto evolutivo qualitativo o una evoluzione lineare che introduce solo progressi quantitativi (in efficienza velocità, semplicità, etc.). L’adesione all’una o all’altra tesi è materia di dibattito in cui non poco incidono punti di vista ideologici sugli effetti e sulle conseguenze della rivoluzione digitale. Quale che sia la posizione adottata, comunque, è innegabile che la somma di innovazioni "quantitative" ha un peso specifico notevole e configura un profondo mutamento nel rapporto tra utente e biblioteca. Questo è tanto più vero se si considera che ai servizi ed alle funzioni per così dire "tradizionali", possono essere affiancati nuovi servizi resi possibili dall’ambiente digitale, in particolare nell’area della multimedialità e della elaborazione e analisi del contenuto dei documenti.

Sulla base di queste riflessioni proponiamo di articolare la nozione generale di "servizio di biblioteca digitale" nel seguente insieme di sottosistemi:

sistema di archiviazione dei documenti

sistema di attribuzione gestione e ricerca dei metadati

sistema di distribuzione remota dei documenti

sistema di consultazione on-line dei documenti

sistemi di ricerca avanzati su contenuto dei documenti

Un sistema di biblioteca digitale completo e pienamente funzionale deve essere dotato di tutti i moduli elencati. Nei prossimi paragrafi vedremo quali requisiti dovrebbe presentare ognuno di questi sottosistemi, e quali problemi debbono essere affrontati e risolti nella loro implementazione.

Il sistema di archiviazione dei documenti

Il sistema di archiviazione dei documenti costituisce il cuore della biblioteca digitale, così come il magazzino e le eventuali sale di esposizione con la loro organizzazione strutturale e funzionale, e i connessi processi di acquisizione e conservazione lo sono per una biblioteca tradizionale.

La costituzione dell’archivio deve chiaramente rispondere in primo luogo ai principi di organizzazione tematica e di genere che regolano la collezione di documenti digitali. Poiché gran parte di tali documenti sono attualmente disponibili su supporti materiali, l’adempimento di tale funzione richiede una fase di digitalizzazione di fonti materiali. La digitalizzazione non è solo un processo tecnico, ma anche un processo rappresentazionale, che richiede l’attenta analisi della struttura dei documenti di origine e l’individuazione dei sistemi di codifica adeguati alla modellizzazione formale di tale struttura [cfr. Ciotti 1994, 1995 e 1997b, e Gigliozzi 1987b e 1997].

Un altro aspetto di capitale importanza del sistema di archiviazione dei documenti, è quello della preservazione a lungo termine del patrimonio documentale:

The primary requirement for a digital research library (DRL) is that from the start it must be committed to organizing, storing and providing electronic information for periods of time longer than human lives. [Graham 1995: 331]

Se il problema della preservazione in una biblioteca convenzionale riguarda la conservazione di oggetti materiali deperibili (libri, periodici, incunaboli, manoscritti documenti d’archivio etc.) ed eventualmente il loro restauro, nella biblioteca digitale esso si articola su tre livelli: livello hardware, livello software e livello dei sistemi di codifica dei documenti. Come noto, la curva di invecchiamento delle tecnologie informatiche è assai rapida, ed impone il periodico aggiornamento di qualsiasi sistema informativo. Tuttavia, tale aggiornamento rende progressivamente inaccessibili le risorse informative generate mediante gli strumenti tecnologici divenuti obsoleti.

Questo può portare ad una situazione che può sembrare paradossale. I libri a stampa hanno tranquillamente superato i cinquecento anni di vita mantenendo pressoché intatta la loro disponibilità alla lettura, e alcuni manoscritti risalgono ad oltre duemila anni fa. Un documento elettronico, che apparentemente sembra godere della massima "riproducibilità tecnica", rischia di divenire inutilizzabile nel giro di pochissimi anni.

La preservazione a lungo termine dei documenti digitali, pertanto, richiede l’adozione di sistemi di rappresentazione ed archiviazione informatica dell’informazione standardizzati e tecnicamente portabili, come rileva Burnard:

Standardization of the way in which information is stored and represented (rather than processed) is the key to a number of closely related problems, all of central concern to users of modern Information Technology, be they academic or commercial. For creators of language resources in particular, it addresses the difficulty of ensuring that information is reusable; the difficulty of ensuring that information represented in different ways can be seamlessly integrated; and the difficulty of facilitating loss-free information interchange between the widest choice of different platforms, different application systems and different languages. [Burnard, 1995: par. 1].

In un senso formale uno standard è un insieme di norme di progettazione e di uso relative ad una particolare tecnologia, che viene emesse da un ente istituzionale nazionale o internazionale. Naturalmente una comunità di utenti particolare, nazionale o internazionale, dotata di strutture organizzative più o meno formalizzate, può decidere di sviluppare o adottare norme comuni per la rappresentazione ed il trattamento dell’informazione, una sorta di standard informale ad uso interno.

Naturalmente, affinché uno standard di rappresentazione dell’informazione sia effettivamente portabile deve essere dotato di alcune caratteristiche tecniche e informatiche:

indipendenza dall’hardware, ovvero da una particolare architettura elaborativa (processore), da un particolare supporto digitale (disco magnetico, disco ottico, etc.), o da un particolare dispositivo o sistema di output (video, stampa);

indipendenza dal software, sia sistemi operativi, sia applicazioni deputate alla creazione, analisi, manipolazione e visualizzazione di testi elettronici;

indipendenza logica da tipologie di elaborazione; questo requisito sotto molti aspetti dipende dal precedente, ma non è con esso coestensivo: esistono sistemi di codifica altamente portabili dal punto di vista puramente tecnico, ma orientati ad un’applicazione specifica (stampa, information retrieval, analisi morfosintattica, etc.), e dunque difficilmente riutilizzabili per altre finalità.

Chiaramente l’adozione di uno standard di rappresentazione e codifica dei documenti deve anche rispettare le esigenze di plasticità rappresentazionale evidenziate sopra.

Il sistema di attribuzione gestione e ricerca dei metadati

Il sistema di attribuzione gestione e ricerca dei metadati costituisce l’equivalente della catalogazione e soggettazione dei documenti nella biblioteca tradizionale. Con il termine metadati si indica infatti l'insieme di dati ed informazioni che descrivono una risorsa documentale digitalizzata, sotto qualche rispetto.

Sebbene l’attribuzione dei metadati sia una delle caratteristiche specifiche che fanno di un insieme di documenti una biblioteca, e sebbene la gestione dei cataloghi sia stata una delle prime funzioni del sistema biblioteca tradizionale ad esser sottoposta ad informatizzazione, gran parte delle attuali sperimentazioni di biblioteche digitali hanno completamente tralasciato questo aspetto.

Un adeguato sistema di gestione dei metadati invece costituisce un supporto insostituibile per fornire all’utente un efficiente servizio di supporto all'individuazione di documenti contenenti l’informazione cui è interessato. Una corretta documentazione del testo elettronico dovrebbe provvedere almeno le seguenti informazioni:

individuazione del documento elettronico attraverso le sue determinazioni bibliografiche: titolo, autore, luogo e data di edizione, etc.;

indicazione della fonte del testo per i documenti elettronici che sono prodotti mediante digitalizzazione di materiale preesistente;

documentazione accurata delle metodologie e dei modelli adottati nella rappresentazione della struttura del documento;

certificazione della originalità, autenticità e qualità del documento digitale in relazione a particolari contesti applicativi (ad esempio nel caso di trascrizioni di opere letterarie va specificato il livello di correttezza della trascrizione e la natura degli interventi di codifica strutturale adottai)

Un requisito importante per un sistema di gestione di metadati per i documenti digitali è la capacità di interagire con i tradizionali sistemi catalografici e dunque di essere importabile all’interno di un tradizionale sistema OPAC.

I sistemi di accesso ai documenti

I sistemi di accesso ai documenti costituiscono nel loro complesso l’interfaccia utente del sistema biblioteca digitale. In questo campo come è lecito aspettarsi non si è ancora affermata alcuna standardizzazione. In generale possiamo distinguere tre modalità con cui un utente può accedere ai documenti archiviati in una biblioteca digitale:

distribuzione remota di file contenenti documenti digitali in vari formati per la consultazione off-line, mediante tecnologie di trasferimento file (con protocollo FTP o HTTP), eventualmente con la mediazione di pagine Web che fungono da indice attivo e da guida all’accesso per gli utenti;

consultazione on-line di documenti in ambiente Web; i documenti vengono inviati in formato HTML all’user agent dell’utente, ma alla fonte possono essere archiviati in vari formati; in questo caso la versione HTML viene generata dinamicamente dal lato server prima di essere inviata mediante protocollo HTTP;

consultazione avanzata di documenti mediante dispositivi di information retrieval.

In linea di principio sarebbe auspicabile che un sistema di biblioteca digitale presenti tutte e tre queste modalità di accesso.

La TEI come Enabling technolgy per le Digital Libraries

A partire da questa analisi della struttura di una biblioteca digitale appare evidente come per lo sviluppo delle biblioteche digitali la Text Encoding Iniatitive possa essere considerata una vera e propria enabling technology per lo sviluppo di biblioteche digitali.

I motivi possono essere riassunti nei seguenti punti:

Espressività dello schema di codifica che permette di rappresentare sia la struttura interna di una vasta tipologia di documenti, sia le relazioni interdocumentali mediante una notazione elegante e rappresentazionalmente potente. Inoltre la natura della rappresentazione basata su mark-up language permette di operare in maniera incrementale nel processo di dettaglio della codifica di singoli documenti o di loro collezioni, un aspetto non trascurabile nella gestione di progetti di digitalizzazione su vasta scala di collezioni documentali. In questo modo è anche possibile articolare un sistema di certificazione della qualità dei testi presenti in una biblioteca digitale basandosi sul livello di complessità e completezza della codifica, e possibilmente individuare un livello minimo di codifica che ci si dovrebbe aspettare in un dato progetto.

Standardizzazione della rappresentazione dei documenti e conseguente supporto alla interoperabilità e all’interscambio di documenti digitali tra diverse biblioteche digitali. Questo grazie

all’adozione della sintassi SGML/XML

alla definizione di una ontologia vasta e comprensiva associata allo schema di codifica. Questo aspetto facilita l’interoperabilità e lo scambio di dati

Portabilità intrinseca dei dati che rappresenta un elemento cruciale per tutte le questioni connesse alla preservazione dei documenti digitali e all’accesso a lungo termine alle informazioni contenute nelle biblioteche digitali.

Possibilità di associare ai documenti un ricco insieme di metadati esterni, e di esprimerli nella medesima notazione sintattica adottata per descrivere la struttura interna dei documenti.

Possibilità di progettare sistemi di consultazione e visualizzazione on-line dei documenti flessibili e dunque di rispondere alle diverse esigenze della comunità di utenti di una biblioteca digitale. Usando opportune procedure di elaborazione un documento XML/SGML può essere reso dinamicamente in numerosi formati di presentazione (HTML, XML+CSS, PDF, PostScript, RTF, plain-text) senza alcun intervento umano.

Possibilità di sviluppare sistemi di reperimento delle informazioni più efficienti e flessibili rispetto ai tradizionali sistemi di ricerca basati su database strutturati (relazionali) o su archivi full-text non strutturati.

Un esempio Italiano: Il progetto TIL

Le precedenti riflessioni hanno orientato la progettazione e la realizzazione di TIL (Testi Italiani on-Line). TIL è un progetto di ricerca cofinanziato dal MURST e iniziato nel 1988, con lo scopo di realizzare una biblioteca digitale di ricerca costituita da trascrizioni elettroniche di testi della tradizione letteraria e culturale italiana secondo standard di progettazione e codifica testuale scientificamente adeguati e la valutazione delle prospettive aperte da questo genere di strumenti per lo studio delle relazioni intertestuali nella produzione letteraria.

La scelta dell’adozione della TEI come base per la codifica digitale dei testi del corpus, è stata dettata anche dalla lunga esperienza che alcuni dei ricercatori coinvolti nel progetto, tra cui chi vi sta parlando e lo scomparso Prof. Gigliozzi, hanno maturato in questo settore grazie al lavoro effettuato presso il Centro Ricerche Informatica e Letteratura (CRILet).

Data la vastità del corpus testuale di riferimento, si è deciso di articolare lo stesso in varie categorie, in modo da ripartire e dosare opportunamente il lavoro di trascrizione e codifica.

Ogni singola opera nel corso della sua tradizione può avere avuto molteplici "edizioni". La scelta delle fonti da cui operare la trascrizione su supporto digitale è dunque un elemento assai importante nella definizione di un progetto come questo. In linea generale il comitato editoriale ha deciso di suddividere tutte le possibili fonti di un’opera in due classi:

fonti primarie:

manoscritti

incunaboli

edizioni a stampa antiche

edizioni a stampa notevoli (es. prime edizioni, etc.)

edizioni diplomatiche a stampa

edizioni a stampa anastatiche

fonti secondarie

edizioni a stampa moderne

edizioni critiche moderne

Ciascuna di queste tipologie ha un trattamento di codifica differenziato: per le fonti primarie, infatti, sono considerati rilevanti sia il contenuto testuale, sia (nel limite del possibile) i fenomeni materiali riscontrati sul documento di origine (in questo caso inoltre la trascrizione del documento sarà affiancata da una digitalizzazione dello stesso in formato grafico); la trascrizione e codifica di questo tipo di fonti dovrà pertanto approssimare quanto più possibile il livello di edizione diplomatico-interpretativa.

Per le fonti secondarie invece il processo di trascrizione e codifica si limita esclusivamente al contenuto testuale, trascurando l’aspetto materiale della fonte. Dal punto di vista pratico questo significa che:

tutti i materiali paratestuali non d’autore o comunque estranei al testo in sé, per come questo è attestato nella tradizione (introduzione, prefazione, indice dei contenuti, note, etc,), presenti sull’edizione fonte sono tralasciati;

ogni fenomeno materiale occorrente sulle pagine sarà tralasciato; ogni fenomeno di evidenziazione sarà codificato in modo funzionale; l’unico aspetto materiale della fonte che va mantenuto sono i salti pagina occorrenti nella edizione fonte, poiché essi possono essere utili ai fini di riferimento e citazione del testo.

La segmentazione delle fonti si interseca con una articolazione dei livelli di codifica cui ciascun testo potrà essere sottoposto. Per la precisione sono stati individuati i seguenti livelli:

livello 1: codifica della strutture componenziale primarie del testo e dei metadati primari;

livello 2: codifica di un insieme di caratteristiche strutturali intralineari e linguistiche, codifica di semplici caratterische filologiche, eventuale introduzione di riferimenti incrociati e collegamenti ipertestuali; codifica avanzata dei metadati;

livello 3: codifica di fenomeni testuali complessi in vista di applicazione di analisi avanzate (struttura semantica, narrativa, retorica, morfosintattica, etc.);

livello 4: trascrizione diplomatica di una fonte primaria;

livello 5: edizione critica di un opera.

Si noti che i livelli 3, 4 e 5 non vanno necessariamente considerati come successivi su scala temporale o di complessità, ma piuttosto come livelli paralleli di articolazione del processo di codifica. È inoltre evidente che i livelli 4 e 5 saranno applicabili esclusivamente a una o più fonti primarie.

A questa ripartizione del corpus potenziale corrisponde una suddivisione dei documenti inseriti nella biblioteca in diverse collezioni.

La prima collezione è denominata da "Canone della letteratura italiana" e contiene della tradizione letteraria italiana dalle origini al Novecento (compatibilmente con le esigenze poste dalla legislazione sul diritto d’autore). I testi facenti parte di tale collezione sono stati trascritti in modo completo a partire dalle edizioni moderne "migliori" disponibili per ciascuna di esse, e sono codificati al livello 2.

Alla collezione "Canone" saranno affiancate delle "collezioni speciali" costituite da collezioni di testi caratterizzati per un determinato aspetto (autoriale, tematico, geografico, etc.) che saranno tendenzialmente esaustive rispetto al dominio di riferimento (per esempio l’opera completa di un autore, o tutte le testimonianze letterarie di una certa area geografica). Queste isole avarnno livelli di codifica superiori al 2.

Infine ci sono delle collezioni accessorie realizzate nel contesto di altri progetti curati dal CRILet. Ad esempio la collezione LIE contiene edizioni di testi digitalizzati nell’ambito di una collaborazione tra il CRILet e TIL e la casa editrice Einaudi per la produzione della versione su CD-ROM della Letteratura Italiana Einaudi. La collezione Liber Liber TIL invece contiene testi realizzati in collaborazione con l’associazione Liber Liber che cura uno dei più noti archivi volontari di testi italiani in rete , il Progetto Manuzio (sullo stile del progetto Gutenberg). A breve sarà inserita una collezione derivata da una ulteriore collaborazione con la casa editrice Einaudi, relativa a un corpus di testi allegati alla versione su CD-Rom della Storia d’Italia Einaudi. Per quest’ultimo progetto il CRILet ha curato anche la generazione di versioni PDF dei testi inclusi, mediante un processo basato sull’uso della TEI come sistema per la codifica dei documenti che sono stati successivamente convertiti in PDF usando e riadattando i fogli di stile XSL e il sistema passiveTex creati da Sebastian Rahtz. Questa collaborazione apre importanti prospettive per la diffusione della TEI non solo in ambito scientifico ma anche nel mondo editoriale.

In futuro TIL potrà anche proporsi come recettore di edizioni elettroniche prodotte da terzi, posto che esse rispondano ai criteri di qualità e di certificazione individuati.

Le tecnologie

La gestione informatica e la disseminazione di una ingente massa di documenti altamente strutturati e riccamente interconnessi su Internet costituisce un problema tecnico di non poco rilievo.

La prima fonte di difficoltà risiede nei limiti della attuale architettura del Web, ancora basata sull’architettura HTTP/HTML. Per superare questi limiti è necessario un salto di paradigma: la distribuzione diretta di documenti XML e SGML su Web. Questa strategia può essere perseguita in due modi.

Il primo consiste nell’adozione di sistemi di content management SGML/XML server-side in grado di generare automaticamente documenti HTML da "fonti" SGML, e di interoperare con un server HTTP. Si tratta di una soluzione molto efficiente, ma anche costosa in termini di acquisizione o sviluppo e manutenzione delle tecnologie. Tra i software di questo tipo ricordiamo Dynaweb, POET, Basis Plus o, in ambito open source, Cocoon (che tuttavia non è dotato di un motore di ricerca e va dunque intergrato con strumenti terzi come eXist).

La seconda soluzione consiste nella distribuzione diretta di documenti XML on-line che possono essere letti sia mediante i normali browser Web nelle versioni più recenti usando fogli di stile CSS o XSL, sia mediante appositi browser SGML/XML specializzati. Esistono due prodotti di questo tipo attualmente sul mercato: Panorama, distribuito attualmente dalla Interleaf (http://www.interleaf.com), e Multidoc PRO, realizzato dalla finlandese Citec (http://www.citec.fi). Un terzo, in fase di sviluppo mentre scriviamo presso la stessa Citec, si chiama DocZilla, e si basa sul codice di Mozilla, unito a un motore SGML/XML molto efficiente.

Entrambe le soluzioni hanno vantaggi e svantaggi, e la situazione ideale consisterebbe nella fusione delle due strategie. Tuttavia si deve notare che l’uso di adeguati sistemi SGML server-side consente di predisporre una serie di servizi di information retrieval in grado di sfruttare l’informazione veicolata dalla codifica e di estendere le ricerche all’intera base dati, cosa che non sarebbe possibile con l’uso di soli strumenti client.

Per questa ragione nell’ambito del progetto TIL abbiamo scelto di adottare questa soluzione, basandoci sul sistema di gestione di documenti DynaWeb. Questo sistema ha permesso lo sviluppo di una interfaccia di accesso ai documenti molto avanzata, in grado di fornire sia all’utente occasionale sia al ricercatore, una notevole massa di strumenti di ricerca e di analisi. In particolare saranno disponibili i seguenti ambienti di lavoro:

ambiente di ricerca sui metadati

ambiente di lettura

ambiente di ricerca contestuale guidata

ambiente di ricerca contestuale libera

Tutti i testi liberi da diritto di autore inoltre potranno essere trasferiti dall’utente sul proprio computer in formato SGML/XML, seconda una licenza di uso di tipo che sulla socrta del fenomeno Open Software, richiede il rispetto dei vincoli di uso non commerciale e di citazione della fonte.

Una volta completata l’implementazione di questa parte dell’interfaccia, si passerà all’estensione dei servizi di fornitura dei documenti on-line mediante l’adozione di un servizio di diffusione on-line di documenti in XML (il cui supporto è già integrato nella piattaforma informatica che abbiamo adottato), in PDF e in formato Microsoft Reader .

Limiti e sviluppi

Naturalmente l’uso dello schema di codifica TEI in un progetti di grandi dimensioni come quelli soggiacenti alla creazione di biblioteche digitali presenta anche numerosi problemi.

Problemi coN lo schema di codifica

La codifica TEI, anche un livello molto basso pone problemi di interpretazione e di applicazione pratica. Sarebbe opportuno il rilascio di linee guida unitarie e di manuali di best practice a cura del consorzio per evitare dove possibile la eccessiva diversificazione delle pratiche di codifica nei progetti su vasta scala.

Meno rilevante per questo tipo di progetti il noto problema delle overlapping hierarchies. Nel contesto di progetti di biblioteca digitale su vasta scale è assai difficile che si incontrino casi di strutture complesse non con i costrutti provvisti dalla TEI. In generale possiamo dire che XML, malgrado i limiti rappresentazionali, si dimostra attualmente il più valido dispositivo informatico per la rappresentazione elettronica dei testi. Esso offre degli indubbi vantaggi tecnici ed informatici (standardizzazione, portabilità, generalità e potenza rappresentazionale, efficienza computazionale nel trattamento testuale), ed è infine abbastanza flessibile, come dimostra la TEI, nel rappresentare anche strutture non gerarchiche.

Problemi tecnici e gestionali

Difficoltà di addestramento del personale

Difficoltà nell’ottenere una consistenza nelle pratiche di codifica su progetti di vasta scala

Alti costi di gestione del progetto

Alti costi delle infrastrutture tecnologiche che permettono di gestire i contenuti.

Proposte per Sviluppi futuri

Definizione formale di una ontologia per i documenti TEI in modo da facilitare la interoperabilità e l’interscambio di documenti codificati a un livello di base e fornire una cornioce chiara in cui inserire le eventuali estensioni localizzate allo schema di codifica che sono assai diffuse nella pratica

Espressione del TEI Header in una notazione RDF

Adozione di Xlink e Xpointer come notazione per la descrizione di relazioni ipertestuali.

Sostegno alla sviluppo di una serie di tool open source per la gestione di archivi testuali XML/TEI on e off-line di facile utilizzo a al contempo aperti ed estensibili.