TEI Lite: introduzione alla codifica dei testi
Lou Burnard
C. M. Sperberg-McQueen
Documento No: TEI U 5
Giugno 1995, rev. maggio 2002
Dicembre 2004

Prefazione all'edizione italiana

Questo manuale documenta lo schema di codifica XML (e la relativa Document Type Definition), comunemente noto come TEI Lite, il quale a sua volta costituisce una versione semplificata dell'intero schema di codifica definito dalla TEI e descritto nel monumentale volume TEI P4, Guidelines for Electronic Text Encoding and Interchange: a cura di L. Bournard e C. M. Sperberg-McQueen, TEI Consortium 2001 (che in questa sede chiameremo Guidelines TEI o, più semplicemente, TEI P4)

Lo schema di codifica della TEI, basato originariamente sulla sintassi Standard Generalized Markup Language (SGML, ISO 8879) e poi allineato alla sintassi del più recente e diffuso Extensible Markup Language (XML), è indirizzato a tutti coloro che intendono produrre e diffondere testi in formato elettronico a fini scientifici e di ricerca, in particolare nel dominio umanistico. Esso consente infatti di rappresentare la struttura astratta di varie tipologie testuali (testo in prosa, testo poetico, testo drammaturgico, fonte manoscritta, etc.), e le caratteristiche testuali rilevanti per diverse aree di ricerca (filologia, analisi linguistica, tematica, narratologica, etc.).

Il sottoinsieme denominato TEI Lite, qui documentato, è stato sviluppato al fine di facilitare l'applicazione dello schema di codifica da parte degli utenti senza richiedere la conoscenza dell'intera DTD e della relativa documentazione, che in alcune parti presenta non poche difficoltà tecniche. Esso permette la creazione di documenti TEI-compliant (compatibili, cioè, con l'intero schema) in maniera rapida e semplice.

Le maggiori istituzioni internazionali attive nella creazione di risorse testuali su supporto digitale utilizzano la TEI per la produzione di edizioni elettroniche, biblioteche e archivi digitali. La sua ricchezza, flessibilità e diffusione, unitamente alla sua origine ed evoluzione interna al dominio degli studi umanistici, ne fanno infatti il più valido schema di codifica attualmente disponibile per tali finalità.

Sono ormai numerosi anche i testi in formato XML/TEI provenienti dalla tradizione letteraria e culturale italiana e messi a disposizione su siti Web specialistici: ricordiamo qui in particolare il lavoro pionieristico svolto, sotto la guida del compianto Giuseppe Gigliozzi, presso il Centro Ricerche Informatica e Letteratura (CRILet), all'indirizzo http://crilet.scu.uniroma1.it, e la grande biblioteca digitale Biblioteca Italiana, all'indirizzo http://www.bibliotecaitaliana.it.

La traduzione italiana del manuale TEI Lite nasce proprio in questo contesto 1 . Nella traduzione si è cercato di rimanere quanto più possibile aderenti al testo inglese, evitando di tradurre termini o sigle ormai entrate nell'uso consolidato della disciplina. Per quanto riguarda gli esempi, laddove è stato ritenuto opportuno (e, soprattutto possibile), si sono inseriti testi originali della tradizione letteraria italiana. Per quanto attiene ai termini tecnici e alla terminologia tecnica XML, si è preferito in linea di massima tradurli in lingua italiana in base al seguente schema:

generic identifier
identificatore generico
tag
marcatore
element
elemento
attribute
attributo
unique identifier
identificatore unico
entity
entità
entity name
nome di entità

Anche i termini tecnici specifici della TEI sono stati generalmente tradotti. In particolare, in riferimento allo statuto del valore degli attributi legal è stato tradotto con permessi, suggested o possible con consigliati, possibili, esemplificativi o suggeriti; global attributes è stato tradotto come attributi globali. I valori suggeriti per gli attributi sono stati generalmente tradotti o indicati in italiano (con alcune eccezioni).

Fabio Ciotti, Dicembre 2004

Prefazione

TEI Lite è il nome che che gli editori della TEI hanno scelto per identificare quella che inizialmente concepirono come una semplice dimostrazione del modo in cui lo schema di codifica della TEI potesse essere adottato per soddisfare il 90% delle esigenze del 90% degli utenti. Retrospettivamente, era prevedibile che molte persone potessero pensare che la TEI Lite fosse tutto ciò che ci fosse da sapere sulla TEI, o che essa fosse persino troppo complessa per le loro esigenze (e proprio per ovviare a questa critica, Michael Sperberg-McQueen predispose ne una versione ancora più ridotta, la versione ‘barebones’ della TEI Lite).

La TEI Lite è stata basata in larga misura sull'osservazione delle effettive pratiche di codifica dei testi, come sono manifestate, ad esempio, nelle collezioni dell'Oxford Text Archive e nella nostra stessa esperienza. Di conseguenza non deve sorprendere il fatto che essa sembra essersi imposta, se non come uno standard di fatto, almeno come un comune punto di partenza per gran parte degli archivi di testi elettronici e dei progetti di codifica nel mondo. Probabilmente il fatto di aver realizzato questo breve e semplice manuale ha contribuito al suo successo.

Il manuale è stato ovviamente redatto ed è ancora oggi aggiornato direttamente in formato XML, mediante la DTD che esso stesso descrive. Questo facilita la produzione di differenti versioni formattate in HTML, PDF, etc., alcune delle quali possono essere reperite nella sezione dedicata alla TEI Lite sul sito ufficiale del TEI Consortium.

Tra i primi utilizzatori della TEI Lite si annoverano diversi ‘centri per la creazione di testi elettronici’, molti dei quali hanno prodotto documentazione e materiali di supporto (alcuni esempi sono elencati nelle TEI Tutorials pages).

Con la pubblicazione della TEI P4, l'edizione XML delle Guidelines TEI, nella quale la generazione della TEI Lite viene usata come esempio del sistema di personalizzazione interno alla TEI stessa, si è colta l'opportuntà di realizzare una edizione leggermente aggiornata di questo manuale. Edizione che documenta la versione XML della Document Type Definition TEI Lite.

Lou Burnard, Maggio 2002

Contents

Questo documento fornisce un’introduzione alle raccomandazioni elaborate dalla Text Encoding Initiative (TEI), descrivendo un sottoinsieme, di facile utilizzazione, dell’intero schema di codifica TEI. Lo schema qui documentato può essere utilizzato per codificare una vasta gamma di caratteristiche testuali comunemente riscontrabili, in modo da ottimizzare l’utilizzabilità delle risorse digitali testuali e facilitare il loro scambio fra studiosi che utilizzano diversi sistemi informatici. Esso è altresì pienamente compatibile con l’intero schema TEI, descritto nel documento TEI P4, Guidelines for Electronic Text Encoding and Interchange, pubblicato nel maggio 2002, e disponibile presso il sito Web del TEI Consortium all'indirizzo http://www.tei-c.org.

Introduzione

Le Guidelines della Text Encoding Initiative (TEI) sono indirizzate a tutti coloro che intendono produrre e diffondere informazioni archiviate in formato elettronico. Esse sono esplicitamente orientate alla creazione e allo scambio di informazioni testuali, ma considerano anche altre tipologie di informazioni (quali immagini e suoni). Le Guidelines sono utilizzabili indifferentemente sia per la creazione di nuove risorse sia per lo scambio di quelle già esistenti.

Le Guidelines forniscono uno strumento per rendere esplicite determinate caratteristiche di un testo in modo tale da facilitarne l'elaborazione mediante programmi informatici basati su diverse piattaforme. Definiamo questo processo di esplicitazione marcatura o codifica. Qualsiasi rappresentazione di un testo su un computer usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva proliferazione di schemi di codifica mutualmente incompatibili che ostacolano la ricerca scientifica, sia per adattarsi al crescente numero di applicazioni scientifiche ormai individuate per i testi in formato elettronico.

Le Guidelines TEI descrivono uno schema di codifica che può essere espresso in diversi linguaggi formali. La prima edizione si basava sullo Standard Generalized Markup Language (SGML); l'edizione più recente (TEI P4, 2002) può essere espressa anche in formato Extensible Markup Language (XML); future versioni potranno essere espresse in altri linguaggi. Tali linguaggi hanno in comune la definizione di un testo in termini di elementi e attributi, e di regole che governano la loro comparsa all'interno di un testo. L’applicazione di XML da parte della TEI è ambizioso nella sua complessità e generalità, ma fondamentalmente non differisce da quella di qualsiasi altro schema di codifica XML; conseguentemente qualsiasi generica applicazione software XML è in grado di elaborare testi conformi alla TEI.

La TEI è stata sponsorizzata dall’Association for Computers and the Humanities, dall’Association for Computational Linguistics, e dall’Association for Literary and Linguistic Computing, ed è attualmente sostenuta e sviluppata da un consorzio indipendente, ospitato da quattro grandi Università. Finanziamenti sono stati in parte forniti dall’U.S. National Endowment for the Humanities, dal Directorate General XIII della Commissione della Comunità Europea, dall’Andrew W. Mellon Foundation, e dal Social Science and Humanities Research Council of Canada. Le Guidelines sono state pubblicate in prima edizione nel maggio del 1994, dopo sei anni di sviluppo che ha coinvolto parecchie centinaia di studiosi di tutto il mondo provenienti da diversi ambiti accademici. Negli anni seguenti le Guidelines hanno esercitato un’influenza sempre maggiore nello sviluppo delle biblioteche digitali, nelle tecnologie del linguaggio e persino nello sviluppo del World Wide Web. Il TEI Consortium è stato fondato nel Gennaio 2001, e un anno dopo ha rilasciato l'attuale edizione interamente rivista delle Guidelines, che è stata completamente aggiornata al fine di renderla compatibile con XML

Gli obiettivi principali della TEI sono stati definiti, agli inizi dei suoi lavori, nelle dichiarazioni conclusive di una conferenza programmatica tenutasi al Vassar College, New York, nel novembre 1987; questi ‘Poughkeepsie Principles’ sono stati ulteriormente elaborati in una serie di documenti progettuali. Le Guidelines, come affermano tali documenti, dovrebbero:
  • essere semplici, chiare e concrete;
  • essere di semplice utilizzazione per i ricercatori senza il ricorso a software specializzati;
  • permettere una definizione rigorosa e un’efficiente elaborazione dei testi;
  • consentire estensioni definite dall’utente;
  • essere conformi agli standard esistenti o in procinto di essere adottati.
Il mondo della ricerca scientifica è ampio e variegato. Affinché le Guidelines godessero della più vasta accoglienza, è stato importante assicurare che:
  1. il nucleo comune delle caratteristiche testuali fosse facilmente condiviso;
  2. le caratteristiche specialistiche supplementari fossero facili da aggiungere (o da rimuovere) da un testo;
  3. fossero possibili molteplici codifiche parallele della stessa caratteristica;
  4. il livello di dettaglio della codifica potesse essere definito dall’utente, con una soglia minima molto bassa;
  5. fosse fornita un’adeguata documentazione del testo e della sua codifica.

Il presente documento descrive una selezione, di facile utilizzazione, dell’esteso insieme di elementi e raccomandazioni definiti in conformità con tali obiettivi progettuali, denominata TEI Lite.

Selezionando tra le diverse centinaia di elementi definiti dallo schema completo della TEI, abbiamo cercato di individuare un utile ‘insieme di partenza’, di elementi che quasi ogni utente dovrebbe conoscere. L’esperienza fatta lavorando con la TEI Lite sarà di inestimabile valore per comprendere la DTD TEI completa, e per individuare quali parti opzionali della DTD siano necessarie per lavorare su particolari tipi di testo.

I nostri obiettivi, nel definire questo sottoinsieme, possono essere riassunti nel modo seguente:
  • esso dovrebbe includere la maggior parte dell’insieme di marcatori ‘fondamentale’ della TEI, dal momento che questo contiene elementi rilevanti virtualmente per tutti i testi e per tutti i tipi di elaborazione testuale;
  • dovrebbe essere in grado di trattare adeguatamente una varietà di testi ragionevolmente ampia, al livello di dettaglio incontrato nella pratica già esistente;
  • dovrebbe essere utile sia per l’elaborazione di nuovi documenti sia per la codifica di quelli già esistenti;
  • dovrebbe essere utilizzabile con un ampio spettro di software XML già esistenti;
  • dovrebbe essere derivabile dalla DTD TEI completa, usando il meccanismo di estensione descritto nelle Guidelines;
  • dovrebbe essere tanto conciso e semplice per quanto lo consente la conformità ai precedenti obiettivi.

Il lettore potrà giudicare da sé in che misura abbiamo realizzato tali obiettivi. Nel momento in cui scriviamo, la fiducia di aver almeno parzialmente raggiunto i nostri scopi nasce dall'uso della TEI Lite nella pratica di codifica di testi reali. L’Oxford Text Archive usa la TEI Lite per tradurre i testi del proprio patrimonio dai loro schemi originali di codifica al formato XML/SGML; gli Electronic Text Centers della University of Virginia e della University of Michigan, hanno usato la TEI Lite per codificare il proprio patrimonio. E la Text Encoding Initiative stessa, utilizza la TEI Lite nella propria documentazione tecnica corrente – incluso questo documento.

Abbiamo cercato di rendere questo documento autosufficiente, come si addice a un testo didattico e introduttivo, ma il lettore dovrebbe essere consapevole che esso non copre ogni dettaglio dello schema di codifica TEI. Tutti gli elementi qui descritti sono documentati compiutamente nel testo completo delle Guidelines, che dovrebbe essere consultato per avere informazioni di riferimento autorevoli su questi, e sui molti altri che non sono qui descritti. Si presuppone, inoltre, una conoscenza di base di XML.

Un breve esempio

Cominciamo con un breve esempio, inteso a mostrare cosa succede quando un brano di prosa è trascritto su un computer da un utente con scarsa consapevolezza sugli scopi della codifica o sulle potenzialità dei testi elettronici. In una situazione ottimale questa rappresentazione potrebbe essere generata da un accuratissimo lettore ottico. Essa cerca di restare fedele all’aspetto del testo stampato, conservando le interruzioni di linea originali, introducendo spazi per rappresentare l’impostazione tipografica dei titoli e dei salti di pagina, e così via. Laddove fossero necessari dei caratteri non disponibili sulla tastiera (come ad esempio la lettera accentata í, in Damín o il trattino lungo), si tenta di mimare il loro aspetto grafico.

Capitolo 16 163 -- Sono contenta che tu sia bravo, -- infine poté dire quie- tamente la madre. Dami/n sorrise. -- Bravo tanto da impressionare i professori. Tanto bravo da diventare un artista. Te lo meriti perché sei buono; e se lo merita anche tuo nonno. Anche lui è un artista; anche se è rimasto a fare cocci... un vero artista. Chissà anche lui come sarà contento. Il segno D.P. continua; continua anche nel- l’arte, come ha detto il professore. -- Ma io andrò via da Fossombrone, -- disse Dami/n, -- ap- pena potrò; appena sarò piu/ grande. Non ne posso piu/: per fortuna questa scuola... se no sarei già scappato da tempo. Mi sento soffocare a Fossombrone. E ancora di piu/ dentro casa. -- E perché vorresti fuggire? Cos’è che ti fa soffocare? -- la madre esitava nella domanda, ma la sincerità della pena la costringeva a parlare. -- Potrai si/ andar via, quando sarai piu/ grande, per il tuo lavoro. E allora sarà giusto, anche se dif- ficile da sopportare. Viene sempre purtroppo il momento in cui i figli debbono lasciare i genitori; specie nei paesi, e spe- cie se i figli sono bravi e hanno studiato. -- E tu ci hai mai lasciato? -- domandò Dami/n. -- Io? Lasciato? E perché? Quando avrei potuto lasciar- vi io? Dami/n stringeva il tavolino e si abbassò per andare a guardarne le gambe. 164 -- Vi ho dato forse l’impressione che avrei potuto lasciar- vi? Io? Lasciarvi, tu e Lavinia? Dove avrei potuto mai an- dare? Dami/n lottava sempre con il tavolino. -- Ma tu hai potuto davvero immaginare che io avrei po- tuto lasciarvi. E tu hai potuto davvero soffrire per questo pensiero? Dami/n rialzò la testa. -- Non sono sempre rimasta accanto a voi? Ogni giorno ogni momento? Dami/n lasciò il tavolino e come per soffiare dentro uno sbuffo prolungato della macchina a vapore dell’espresso, do- mandò: -- E di notte? La madre fu colpita; ma come se non avesse sentito pro- segui/: -- Se qualche volta tacevo... era per pensieri miei. Non certo facevo progetti di lasciarvi. Tutti hanno un pen- siero. Anche le madri possono avere un pensiero loro, anche un dolore, anche una pena; ma mai contro i figli; e mai nep- pure per un momento con l’idea di lasciarli... -- E si fermò, come se adesso un altro pensiero l’avesse presa, con una gra- vità ben superiore a quel che lei stessa stava dicendo, che era scaturito dalle parole del figlio. Dami/n con la testa ritta sempre dietro lo sbuffo della mac- china del caffè non diceva altro, consapevole che a quel pun- to il suo silenzio era piu/ doloroso di qualsiasi parola. -- Io ho sofferto... ho sofferto molto. Posso essermi isola- ta, tirata un po’ da parte; ma non mi sono mai smarrita. Non vi ho mai perduto. Dami/n continuava a calcolare il proprio silenzio. -- Posso anche aver commesso delle colpe. Si/. Ma mai e poi mai ho solo sfiorato il pensiero di fare del male a voi e di potervi lasciare: mai e per niente. Anche la colpa piu/ grande non mi ha mai staccata da voi. E nemmeno...
Questa trascrizione (dal Lanciatore di giavellotto di Paolo Volponi, Einaudi 1981) presenta una serie di problemi:
  • i numeri delle pagine e i titoli correnti sono inframmezzati al testo in un modo da rendere difficile per un programma distinguerli;
  • nessuna distinzione è stata fatta tra i segni (linee orizzontali) che introducono un discorso diretto e la linea di sillabazione che spezza una parola che va a capo; in questo modo è difficile sapere esattamente quali passaggi sono in discorso diretto;
  • la conservazione dei trattini di sillabazione del testo copiato impedisce a programmi di ricerca non sofisticati il reperimento delle parole spezzate;
  • le lettere accentate in cosí, in piú e in Damín sono state rese con un segno convenzionale che non segue degli schemi standard e che sarà correttamente elaborato solo se il trascrittore ricorderà di menzionarlo nella documentazione;
  • le divisioni del paragrafo sono segnate solo dall’utilizzo di uno spazio bianco e ritorni a capo sono stati introdotti alla fine di ogni linea. Conseguentemente, se dovesse cambiare la dimensione del carattere usato per stampare il testo, la formattazione sarà problematica.
Presentiamo ora lo stesso brano come potrebbe essere codificato usando le Guidelines TEI. Come vedremo, sarebbe possibile estendere questa codifica in molti modi, ma come minimo, l’approccio proposto dalla TEI ci consente di rappresentare le seguenti distinzioni:
  • le divisioni di paragrafo sono adesso marcate esplicitamente.
  • i riferimenti a entità sono usati al posto di lettere accentate e trattini lunghi.
  • le divisioni di pagina sono state segnate solamente con un elemento vuoto <pb> .
  • per semplificare la ricerca e il trattamento automatico, la divisione in righe dell’originale non è stata mantenuta e gli spezzoni di parole divise per motivi tipografici alla fine di una riga sono stati saldati. Se la divisione in righe dell’originale fosse stata rilevante, come potrebbe essere per un’edizione diplomatica, essa potrebbe essere facilmente registrata, anche se qui non è stato fatto.
  • per praticità nella correzione del testo, una linea vuota è stata introdotta prima di ogni paragrafo, ma il rientro dal margine della prima riga di ogni paragrafo è stata eliminato.
<div1> <pb n="163"/> <head>Capitolo 16</head> <p>&mdash; <q>Sono contenta che tu sia bravo,</q> &mdash; infine pot&eacute; dire quietamente la madre. <p>Dam&iacute;n sorrise. <p>&mdash; <q>Bravo tanto da impressionare i professori. Tanto bravo da diventare un artista. Te lo meriti perch&eacute; sei buono; e se lo merita anche tuo nonno. Anche lui &egrave; un artista; anche se &egrave; rimasto a fare cocci... un vero artista. Chiss&agrave; anche lui come sar&agrave; contento. Il segno D.P. continua; continua anche nell'arte, come ha detto il professore.</q> <p>&mdash; <q>Ma io andr&ograve; via da Fossombrone,</q> &mdash; disse Dam&iacute;n, &mdash; <q>appena potr&ograve;; appena sar&ograve; pi&uacute; grande. Non ne posso pi&uacute;: per fortuna questa scuola... se no sarei gi&agrave; scappato da tempo. Mi sento soffocare a Fossombrone. E ancora di pi&uacute; dentro casa.</q> <p>&mdash; <q>E perch&eacute; vorresti fuggire? Cos'&egrave; che ti fa soffocare?</q> &mdash; la madre esitava nella domanda, ma la sincerit&agrave; della pena la costringeva a parlare. &mdash; <q>Potrai s&iacute; andar via, quando sarai pi&uacute; grande, per il tuo lavoro. E allora sar&agrave; giusto, anche se difficile da sopportare. Viene sempre purtroppo il momento in cui i figli debbono lasciare i genitori; specie nei paesi, e specie se i figli sono bravi e hanno studiato.</q> <p>&mdash; <q>E tu ci hai mai lasciato?</q> &mdash; domand&ograve; Dam&iacute;n. <p>&mdash; <q>Io? Lasciato? E perch&eacute;? Quando avrei potuto lasciarvi io?</q> <p>Dam&iacute;n stringeva il tavolino e si abbass&ograve; per andare a guardarne le gambe. <pb n="164"/> &mdash <q>Vi ho dato forse l'impressione che avrei potuto lasciarvi? Io? Lasciarvi, tu e Lavinia? Dove avrei potuto mai andare?</q> <p>Dam&iacute;n lottava sempre con il tavolino. <p>&mdash; <q>Ma tu hai potuto davvero immaginare che io avrei potuto lasciarvi. E tu hai potuto davvero soffrire per questo pensiero?</q> <p>Dam&iacute;n rialz&ograve; la testa. <p>&mdash; <q>Non sono sempre rimasta accanto a voi? Ogni giorno ogni momento?</q> <p>Dam&iacute;n lasci&ograve; il tavolino e come per soffiare dentro uno sbuffo prolungato della macchina a vapore dell'espresso, domand&ograve;: &mdash; <q>E di notte?</q> <p>La madre fu colpita; ma come se non avesse sentito prosegu&iacute;: &mdash <q>Se qualche volta tacevo... era per pensieri miei. Non certo facevo progetti di lasciarvi. Tutti hanno un pensiero. Anche le madri possono avere un pensiero loro, anche un dolore, anche una pena; ma mai contro i figli; e mai neppure per un momento con l'idea di lasciarli...</q> &mdash; E si ferm&ograve;, come se adesso un altro pensiero l'avesse presa, con una gravit&agrave; ben superiore a quel che lei stessa stava dicendo, che era scaturito dalle parole del figlio.</q> <p>Dam&iacute;n con la testa ritta sempre dietro lo sbuffo della macchina del caff&egrave; non diceva altro, consapevole che a quel punto il suo silenzio era pi&uacute; doloroso di qualsiasi parola. <p>&mdash <q>Io ho sofferto... ho sofferto molto. Posso essermi isolata, tirata un po&rsquo; da parte; ma non mi sono mai smarrita. Non vi ho mai perduto.</q> <p>Dam&iacute;n continuava a calcolare il proprio silenzio. <p>&mdash; <q>Posso anche aver commesso delle colpe. S&iacute;. Ma mai e poi mai ho solo sfiorato il pensiero di fare del male a voi e di potervi lasciare: mai e per niente. Anche la colpa pi&uacute; grande non mi ha mai staccata da voi. E nemmeno...</q>
La decisione di concentrarsi sul testo di Volponi, piuttosto che sul suo aspetto a stampa in questa particolare edizione, è uno degli aspetti fondamentali della codifica: la selettività. Una codifica rende esplicite solo quelle caratteristiche testuali importanti per il codificatore. Non è difficile pensare a modi nei quali la codifica perfino di questo breve brano potrebbe essere estesa senza difficoltà. Per esempio:
  • potrebbero essere aggiunte note a piè di pagina, commenti o glosse su qualsiasi brano;
  • potrebbero essere aggiunti puntatori che colleghino le parti di questo testo ad altri testi;
  • i nomi propri di vario tipo potrebbero essere distinti dal testo circostante;
  • dettagli bibliografici sulla provenienza e sul contesto del testo potrebbero precederlo;
  • potrebbe essere fornita un’analisi linguistica del brano in frasi, proposizioni, parole etc., associando ogni unità con appropriati codici di classificazione;
  • il testo potrebbe essere segmentato in unità narrative o discorsive;
  • potrebbe essere inclusa nella codifica un’analisi sistematica o un’interpretazione del testo mediante un complesso allineamento o collegamento tra il testo e l’analisi, o tra il testo e una o più sue traduzioni;
  • brani del testo potrebbero essere collegati a immagini e suoni gestiti da altri media.
Il modo raccomandato dalla TEI per effettuare tutto ciò è descritto nel seguito di questo documento. Lo schema TEI completo fornisce inoltre numerosissime ulteriori possibilità di codifica, tra le quali ricordiamo:
  • analisi dettagliata delle componenti dei nomi;
  • inserimento di meta-informazioni, in stile thesaurus, che indichino l’origine o i temi del testo;
  • inserimento di notizie relative alla storia editoriale o alle varianti manoscritte presentate da una data serie di testimoni del testo.
Per i suggerimenti su queste e su molte altre possibilità sarà necessario consultare la versione completa delle Guidelines.

Struttura di un testo TEI

Tutti i testi conformi alla TEI contengono: (a) una intestazione (codificata come elemento <teiHeader> ) e (b) la trascrizione del testo vero e proprio (marcata con l’elemento <text> ).

L'intestazione TEI contiene informazioni analoghe a quelle contenute nel frontespizio di un testo a stampa. Essa può avere fino a quattro parti: una descrizione bibliografica del testo memorizzato su supporto digitale, una descrizione del modo nel quale è stato codificato, una descrizione non bibliografica del testo (un profilo del testo), e un elenco delle revisioni. L’intestazione è descritta più dettagliatamente nella sezione Il frontespizio elettronico.

Un testo TEI può essere unitario (un’opera singola) o composito (una collezione di opere, come un’antologia). In entrambi i casi, il testo può avere un peritesto iniziale o un peritesto finale facoltativi. In mezzo c’è il corpo del testo, che, nel caso di un testo composito, può essere costituito da gruppi, ciascuno dei quali può a sua volta contenere più gruppi o testi.

Un testo unitario sarà codificato usando una struttura generale come questa:
<TEI.2> <teiHeader> [informazioni dell'intestazione TEI] </teiHeader> <text> <front> [materiali del peritesto iniziale] </front> <body> [testo unitario] </body> <back> [materiali del peritesto finale] </back> </text> <TEI.2>
Anche un testo composito può essere dotato di peritesti facoltativi. Al loro interno si trovano uno o più gruppi di testi, ciascuno dei quali è eventualmente corredato di propri materiali peritestuali. Un testo composito sarà codificato usando una struttura globale come questa:
<TEI.2> <teiHeader> [intestazione del testo composito] </teiHeader> <text> <front> [peritesto iniziale del testo composito] </front> <group> <text> <front>[peritesto iniziale del primo testo] </front> <body> [primo testo unitario] </body> <back> [peritesto finale del primo testo] </back> </text> <text> <front>[peritesto iniziale del secondo testo] </front> <body> [secondo testo unitario] </body> <back> [peritesto finale del secondo testo] </back> </text> [altri testi o gruppi di testi] </group> <back> [peritesto finale del testo composito] </back> </text> <TEI.2>
La TEI completa prevede anche la possibilità di definire una collezione di testi TEI, ciascuno con la propria intestazione. Tale insieme è denominato TEI corpus, e può a sua volta essere dotato di una intestazione:
<teiCorpus.2> <teiHeader> [intestazione del corpus] </teiHeader> <TEI.2> <teiHeader> [intestazione del primo testo] </teiHeader> <text> [primo testo nel corpus] </text> </TEI.2> <TEI.2> <teiHeader> [intestazione del secondo testo] </teiHeader> <text> [secondo testo nel corpus]</text> [...] </TEI.2> </teiCorpus.2>

Nel seguito di questo documento, discuteremo principalmente semplici strutture testuali. La trattazione di ogni caso consiste in una lista degli elementi TEI rilevanti corredata da una breve definizione di ciascuno di essi, seguita da un breve definizione di ciascun attributo specifico di quell'elemento. In molti casi vengono forniti anche brevi esempi.

La codifica del corpo del testo

Come indicato sopra, un semplice documento TEI è costituito, al livello testuale, dai seguenti elementi:
<front>
Contiene qualsiasi materiale peritestuale (intestazioni, frontespizio, prefazioni, dediche, etc.) che si trovi prima dell'inizio del testo vero e proprio.
<group>
Raggruppa un insieme di testi unitari o di gruppi di testi.
<body>
Contiene l'intero corpo di un singolo testo unitario, con l'esclusione di ogni elemento peritestuale.
<back>
Contiene qualsiasi appendice che segua la parte principale di un testo.
Gli elementi specifici delle sezioni peritestuali vengono descritti di seguito nella sezione Materiali peritestuali. In questa sezione discutiamo gli elementi che costituiscono il corpo del testo.

Gli elementi per le partizioni testuali

Il corpo di un testo in prosa può essere costituito solamente da una serie di paragrafi, oppure tali paragrafi possono essere raggruppati insieme in capitoli, sezioni, sottosezioni, etc. Nel primo caso, ogni paragrafo viene codificato usando il marcatore <p> . Nel secondo caso, l'elemento <body> può essere diviso sia in una serie di elementi <div1> , sia in una serie di elementi <div> , i quali possono essere ulteriormente suddivisi, come discusso di seguito:
<p>
Codifica i paragrafi in prosa.
<div>
Contiene una sezione del peritesto o del corpo di un testo.
<div1>
Contiene una sezione di primo livello del peritesto o del corpo di un testo (la più ampia, se <div0> non è usato, altrimenti la seconda in ordine gerarchico).

Qualora siano necessarie partizioni strutturali inferiori a una <div1> , quest'ultima può essere divisa in elementi <div2> , una <div2> in elementi inferiori <div3> , etc., fino al livello <div7> . Se sono presenti più di sette livelli nella divisione strutturale, è necessario o modificare la DTD TEI per accettare <div8> , etc., oppure usare l'elemento non numerato <div> : un elemento <div> può essere suddiviso in elementi più piccoli <div> , senza limiti alla profondità di annidamento.

Tutti questi elementi di segmentazione accettano i seguenti tre attributi:
type
Indica il nome convenzionale per questa categoria di partizione del testo. Il suo valore sarà generalmente Libro, Capitolo, Poesia, etc. Altri possibili valori includono Gruppo per gruppi di poesie, etc., trattati come un'unità singola, Sonetto, Discorso o Canzone. Si noti che qualsiasi valore venga fornito per l'attributo type del primo <div> , <div1> , <div2> , etc., in un dato testo, si assume che sia valido per tutte le successive <div> , <div1> , all'interno dello stesso <body> . Questo implica che un valore deve essere fornito per il primo elemento di divisione di un dato tipo, o ogni qualvolta tale valore cambi.
id
Specifica un identificatore unico per la partizione, che può essere usato per creare riferimenti incrociati o altri collegamenti (ad esempio a un commento), come discuteremo più avanti nella sezione Riferimenti incrociati e collegamenti. Spesso è utile dare un attributo id a ogni unità strutturale importante di un testo, e derivarne i valori in un modo sistematico, ad esempio aggiungendo un numero di sezione a un breve codice per il titolo dell'opera in questione, come negli esempi che seguono.
n
Specifica un breve nome mnemonico o un numero per la divisione, che può essere usato per identificarla, preferendolo a id. Se già esiste una forma convenzionale di riferimento o un'abbreviazione per le parti di un lavoro (come il sistema libro/capitolo/verso delle citazioni bibliche), l'attributo n è il luogo deputato a registrarlo.
Gli attributi id e n, peraltro, sono tanto utili da essere ammessi in tutti gli elementi, in ogni DTD conforme alla TEI: sono attributi globali. Gli altri attributi globali definiti nello schema TEI Lite sono discussi nella sezione Attributi di collegamento.
Il valore di ogni attributo id deve essere unico all'interno di un documento. Un semplice modo per assicurarsi che questo avvenga è fare in modo che esso rifletta la struttura gerarchica del documento. Per esempio, i Principi di scienza nuova di Vico consistono di cinque libri, ognuno dei quali è diviso in sezioni, le quali sono ulteriormente suddivise in capitoli. Si potrebbe definire il valore degli id per questa struttura come segue:
<div1 id="PSN1" n="I" type="libro"> <div2 id="PSN101" n="I.1" type="sezione"> <div3 id="PSN10101" n="I.2.1" type="capitolo"> ... </div3> <div3 id="PSN10102" n="I.2.2" type="capitolo"> ... </div3> </div2> ... </div1> <div1 id="PSN2" n="II" type="libro"> .... </div1> ...

È possibile adottare un differente schema di numerazione per gli attributi id e n: questo è spesso utile qualora uno schema di riferimento canonico non corrisponda alla struttura dell'opera. Per esempio, in un romanzo diviso in libri, ognuno contenente dei capitoli, dove i capitoli sono numerati sequenzialmente attraverso l'intera opera, piuttosto che all'interno di ogni libro, si potrebbe usare uno schema come il seguente:

<div1 id="TS01" n="1" type="Volume"> <div2 id="TS011" n="1" type="Capitolo"> ... <div2 id="TS012" n="2"> ... </div1> <div1 id="TS02" n="2" type="Volume"> <div2 id="TS021" n="3" type="Capitolo"> ... <div2 id="TS022" n="4"> ... </div1>

In questo caso, l'opera è in due volumi, ognuno contenente due capitoli. I capitoli sono numerati convenzionalmente da 1 a 4, ma i valori id specificati consentono loro di essere considerati anche come se fossero numerati 1.1, 1.2, 2.1, 2.2.

Intertitoli e chiusure

Ogni elemento <div> , <div1> , <div2> , etc., può avere un titolo o un'intestazione al suo inizio, e (meno comunemente) una formula di chiusura quale "Fine del capitolo 1". I seguenti elementi possono essere usati per trascriverli:
<head>
contiene ogni tipo di titolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario.
<trailer>
contiene una formula di chiusura o un elemento a piè di pagina che compare alla fine di una sezione di testo.
Alcuni altri elementi che possono occorrere all'inizio o alla fine delle sezioni del testo sono discussi più avanti nella sezione Materiali introduttivi.
Decidere se titoli e formule di chiusura debbano essere inclusi o meno in una trascrizione è una questione sulla quale è chiamato a decidere il trascrittore. Nel caso in cui un titolo abbia una forma del tutto regolare (per esempio Capitolo 1) o sia stato utilizzato come valore di attributo (per es. div type="Capitolo" n="1"), può essere omesso; laddove questo contenga del testo altrimenti irrecuperabile, dovrebbe essere sempre incluso. Per esempio, l'inizio di Uno, nessuno e centomila di Luigi Pirandello, potrebbe essere codificato come segue:
<div1 id="UNC1" n="Libro primo" type="Sezione"> <div2 id="UNC11" n="1" type="Capitolo"> <head>I. Mia moglie e il mio naso</head> <p>&mdash; Che fai? &mdash; mia moglie mi domandò, vedendomi...

Prosa, versi e testi drammatici

Come notato sopra, i paragrafi che costituiscono una divisione testuale dovrebbero essere marcati con <p> . Per esempio:
<body> ... <p>A seguitare, non ci saremmo mai intesi; perché se a me stava a cuore la tigre, a lei il cacciatore. </p> <p>Difatti il cacciatore designato a ucciderla è Carlo Ferro. La Nestoroff ne dev'essere molto costernata; e forse non viene qua, come vogliono i maligni, per studiare la sua parte, ma per misurare il pericolo che il suo amante affronterà.</p> ... </body>
(Il brano è tratto da Quaderni di Serafino Gubbio operatore di Luigi Pirandello)
Per la codifica delle componenti strutturali dei testi in versi e dei testi drammatici (opere teatrali, sceneggiature, etc.) viene fornita un'ulteriore serie di marcatori:
<l>
contiene una singola riga di poesia, eventualmente incompleta. Tra gli attributi:
part
specifica se il verso è metricamente completo o meno. I valori legali sono: F per la parte finale di una un verso incompleto, Y se la il verso è metricamente incompleto, N se la il verso è completo, o se nessuna assunzione è fatta sulla sua completezza, I per la parte iniziale di un verso incompleto, M per la parte mediana di un verso incompleto.
<lg>
contiene un gruppo di versi che costituiscono un'unità formale, per esempio una strofa, un refrain, un paragrafo in versi, etc.
<sp>
contiene una singola battuta in un testo drammatico, o un brano presentato come tale (cioè per la recitazione) in un testo in prosa o in versi. Tra gli attributi:
who
identifica mediante un ID il soggetto parlante
<speaker>
contiene una forma particolare di intestazione o etichetta, che fornisce i nomi di uno o più parlanti in un testo o frammento drammatico.
<stage>
contiene qualsiasi tipo di didascalie o direttive di scena all'interno di un testo o di un frammento di testo drammatico. Tra gli attributi:
type
indica il tipo di didascalia. I valori consigliati includono entrata, uscita, scenografia, dizione, etc.
Qui, per esempio, abbiamo l'inizio di un testo poetico del quale sono codificati i versi e le stanze:
<lg> <l>S'i' fosse foco, ardere' il mondo;</l> <l>s'i' fosse vento, lo tempestarei;</l> <l>s'i' fosse acqua, i' l'annegherei;</l> <l>s'i' fosse Dio, mandereil en profondo;</l> <lg> <l>s'i' fosse papa, serei allor giocondo,</l> <l>ché tutti ' cristiani embrigarei;</l> <l>s'i' fosse 'mperator, sa' che farei?</l> <l>a tutti mozzarei lo capo a tondo.</l> <lg>
(Il brano è tratto dal sonetto LXXXII delle Rime di Cecco Angiolieri)

Si noti come l'elemento <l> marchi il verso, non le righe tipografiche: un’eventuale divisione in righe del testo originale non viene esplicitata da questa codifica, e potrebbe andare perduta. L'elemento <lb> descritto nella sezione Numeri di pagina e di riga, può essere usato, se lo si desidera, per marcare le linee tipografiche.

Qualche volta, particolarmente nei testi teatrali, i versi sono suddivisi tra più parlanti. Il modo più semplice per rappresentare questo fenomeno è usare l'attributo part per indicare che le righe di versi così frammentate sono incomplete, come in questo esempio (ripreso dall'atto quinto, scena terza, del Conte di Carmagnola di Alessandro Manzoni):
<div2 type="scena" n=”3”> <head>SCENA III </head> <stage>GONZAGA, <emph>e dette</emph>.</stage> <sp><speaker>ANTONIETTA</speaker> <l>Gonzaga! ... ov'è il mio sposo? ov'è? ... Ma voi</l> <l>Non rispondete? Oh cielo! il vostro aspetto</l> <l part="I">Annunzia una sventura.</l> </sp> <sp><speaker>GONZAGA</speaker> <l part="F">Ah che pur troppo</l> <l part="I">Annunzia il vero!</l> </sp> <sp><speaker>MATILDE</speaker> <l part="M">A chi sventura?</l> </sp> <sp><speaker>GONZAGA</speaker> <l part="F">O donne!</l> <l>Perché un incarco sì crudel m'è imposto?</l> </sp>
Lo stesso meccanismo può essere applicato a stanze che sono divise tra due o più parlanti:
<sp><speaker>Aristeo:</speaker> <lg part="I" type="ottava"> <l>Rimanti, Mopso, ch'i' la vo' seguire,</l> <l>perché l'è quella di chi io t'ho parlato.</l> </lg></sp> <sp><speaker>Mopso:</speaker> <lg part="M" type="ottava"> <l>Guarda, Aristeo, che 'l troppo grande ardire</l> <l>non ti conduca in qualche tristo lato.</l> </lg></sp> <sp><speaker>Aristeo:</speaker> <lg part="F" type="ottava"> <l>O mi convien questo giorno morire,</l> <l>o tentar quanta forza habbia 'l mie fato.</l> <l>Rimanti, Mopso, intorno a questo fonte,</l> <l>ch'i' vogl'ire a trovalla sopra 'l monte.</l> </lg></sp>
(Il brano è tratto dalla Fabula di Orfeo del Poliziano)
L'esempio successivo (tratto da Quaderni di Serafino Gubbio operatore di Luigi Pirandello) mostra come dovrebbe essere codificato il dialogo presentato in un'opera in prosa come se fosse un dialogo teatrale. Esso mostra anche l'uso dell'attributo who per fornire un codice che identifichi chi recita un determinato dialogo:
<sp who="GUB"><speaker>Serafino Gubbio operatore</speaker> <p>&mdash; Che vuole che le dica? Lei in questo momento, lo riconoscerà è molto eccitato.</p> </sp> <sp who="FER"><speaker>Carlo Ferro</speaker> <p>&mdash; Ma posso esser calmo?</p> </sp> <sp who="GUB"><speaker>Serafino Gubbio operatore</speaker> <p>&mdash; Ah, capisco...</p> </sp> <sp who="FER"><speaker>Carlo Ferro</speaker> <p>&mdash; Ne ho ragione, mi sembra!</p> </sp> <sp who="GUB"><speaker>Serafino Gubbio operatore</speaker> <p>&mdash; Sì, senza dubbio! Ma in tale stato, caro Ferro, è anche molto facile esagerare.</p> </sp>

Numeri di pagina e di riga

Le interruzioni di pagina e di linea possono essere marcate con i seguenti elementi vuoti.
<pb>
segnala i confini tra una pagina di un testo e la successiva in un sistema di riferimento standard.
<lb>
segnala l'inizio di una nuova riga (tipografica) in una certa edizione o versione di un testo.
Questi elementi marcano un punto singolo nel testo, non una sua porzione. L'attributo globale n dovrebbe essere usato per fornire il numero della pagina o della riga che inizia con il marcatore. Inoltre, questi due elementi condividono il seguente attributo:
ed
indica l'edizione o versione in cui l'interruzione della pagina è localizzata a questo punto.

Quando si codifica un originale con pagine numerate è spesso utile registrare la sua numerazione di pagina, se non altro per semplificare una successiva verifica del testo. Per la stessa ragione potrebbe essere utile registrare l'interruzione delle righe; in entrambi i casi il trattamento dei trattini di sillabazione nelle parole a fine riga sull'originale a stampa richiederà una certa considerazione.

Qualora si intenda registrare la numerazione di pagina, etc., di molteplici edizioni, occorre inserire tanti marcatori quante sono le edizioni, e specificare l'edizione in questione usando l'attributo ed. Per es. nel passaggio seguente (tratto da Una questione privata di Beppe Fenoglio) viene indicato dove cade l'interruzione di pagina in due edizioni differenti (TE90 — per Tascabili Einaudi 1990 — e EG92 — per Einaudi-Gallimard 1992).

<p><q>&mdash; Perché hai deviato? &mdash;</q> domandò Ivan. <q>&mdash; Perché ora ti sei fermato? Cosa guardi? Quella casa? Perché ti interessi a quella casa?</q></p> <p><q>&mdash; Non la vedevo dal principio della guerra e non la rivedrò più prima della fine. Abbi pazienza cinque minuti Ivan.</q></p> <pb n="3" ed="TE90"/> <p><q>&mdash; Non è questione di pazienza ma di pelle. Quassù è pericoloso. Le pattuglie.</q></q> <p><q>&mdash; Non si azzardano fin quassù. Al massimo arrivano alla strada ferrata.</q></p> <p><q>&mdash; Da' retta a me, Milton, pompiamo. L'asfalto non mi piace.</q></p> <p><q>&mdash; Qui non siamo sull'asfalto, &mdash;</q> rispose Milton che si era fissato sulla villa.</p> <p><q>&mdash; Ci passa proprio sotto, &mdash;</q> e Ivan additò un tratto dello <pb n="1001" ed="EG92"/> stradale subito a valle della cresta, con l'asfalto qua e là sfondato, sdrucito dappertutto</p>
Gli elementi <pb> e <lb> sono casi particolari della classe di cosiddetti elementi milestone, che marcano i punti di riferimento all'interno di un testo. La TEI Lite prevede anche un elemento generico <milestone> che non è ristretto a casi particolari ma può segnalare ogni tipo di punto di riferimento: per esempio, un'interruzione di colonna, l'inizio di un nuovo tipo di sezione non marcata altrimenti, etc. Questo elemento ha la seguente descrizione ed attributi :
<milestone>
segnala il confine tra le sezioni di un testo, indicato dai cambiamenti in un sistema di riferimento standard. Tra gli attributi:
ed
indica l'edizione o versione a cui si applica il riferimento.
unit
indica quale tipo di sezione sta cambiando quando si incontra questo riferimento.

I nomi usati per i tipi di unità e per le edizioni cui ci si riferisce con gli attributi ed e unit possono essere scelti liberamente, ma devono essere documentati nel TEI header.

Si può usare l'elemento <milestone> per rimpiazzare i precedenti, o usare questi nel loro insieme; i due metodi non andrebbero mescolati arbitrariamente.

La codifica di espressioni evidenziate

Cambiamenti negli stili di carattere

Le parole o le espressioni evidenziate sono quelle rese visivamente differenti dal resto del testo, generalmente per mezzo di un cambio nella fonte tipografica, nello stile di scrittura o nel colore dell'inchiostro, al fine di richiamare l'attenzione del lettore.

L'attributo globale rend può essere associato a ogni elemento e usato ovunque sia necessario specificare i dettagli dell'aspetto grafico che esso presenta (o dovrebbe presentare). Per esempio un titolo reso in grassetto può essere codificato head rend="Bold", uno in corsivo head rend="Bold".

Non è sempre possibile o desiderabile interpretare le ragioni di tali cambiamenti di aspetto grafico in un testo. In tali casi, l'elemento <hi> può essere usato per marcare una sequenza di testo evidenziato senza fare alcuna assunzione circa il suo status.
<hi>
codifica una parola o frase in quanto graficamente distinta dal testo circostante, senza che si faccia alcuna dichiarazione sulle ragioni dell'evidenziazione.
Nel seguente esempio (tratto da Monarchia di Francia di Tommaso Campanella) l'uso dei vari tipi di carattere è registrato ma non interpretato:
<p>Il Campanella scrisse nel libro della <hi rend="italic">Monarchia di Spagna</hi> che ciò convenga al re Catolico, primo dal nome, perché catolico vuol dir universale: dunque costui sarà ministro del Messia, a cui fu promesso in Abrahamo <hi rend="italic">ut esset haeres mundi</hi>, Rom. 4, e Genes. 18, <hi rend="italic">in quo benedicentur omnes gentes, etc</hi>.</p>
In alternativa, se la causa dell'evidenziazione può essere identificata con certezza sono disponibili una serie di elementi più specifici.
<emph>
codifica parole o espressioni che sono messe in risalto o enfatizzate per un effetto linguistico o retorico.
<foreign>
identifica una parola o un'espressione appartenente a una lingua diversa da quella del testo circostante.
<mentioned>
codifica parole o espressioni citate o riportate.
<term>
contiene una o più parole o simboli che vengono considerati come termini tecnici.
<title>
contiene il titolo di un'opera, sia essa articolo, libro, giornale, o collana, compreso ogni titolo alternativo o sottotitolo. Tra gli attributi:
level
indica se questo è il titolo di un articolo, libro, giornale, collana o materiale inedito. I valori permessi sono: m per titoli monografici (libro, collezione o altra pubblicazione editi come oggetti bibliografici autonomi, inclusi i singoli volumi di opere in più volumi); s (titolo di collana); j (titolo di periodico); u per titoli di materiale inedito (incluse tesi e dissertazioni non ancora pubblicate da un editore commerciale); a per titolo analitico (articolo, poesia, o altro materiale pubblicato come parte di una pubblicazione più vasta).
type
classifica il titolo secondo un'adeguata tipologia. Valori esemplificativi sono: abbreviato; principale; subordinato (per sottotitoli o titoli di sezione); parallelo (per titoli alternativi, spesso in un'altra lingua, con cui l'opera è conosciuta).

Alcune strutture (specificamente citazioni e glosse) possono trovarsi in un testo evidenziate oppure incluse tra virgolette. In entrambi i casi dovrebbero essere usati gli elementi <q> e <gloss> (come discusso nella sezione seguente). Qualora occorra registrare la resa tipografica, va usato l'attributo globale rend.

Come esempio degli elementi qui definiti, si consideri il seguente paragrafo (riportato da La letteratura francese dall'Illuminismo al Romanticismo di Giovanni Macchia):

Ispirato dalla lettura del Tristram Shandy: di Sterne, che Diderot conobbe nell'originale, Jacques le Fataliste è un programmato coacervo di vicende, personaggi, discussioni, energici quadri realistici, non legati da un'interna logica o, meglio, mimetica riproduzione (con tutte le conseguenti variazioni stilistiche) del "décousu" dell'esistenza.

Interpretando il ruolo dell'evidenziazione, la frase dovrebbe presentarsi cosi:
Ispirato dalla lettura del <title>Tristram Shandy</title> di Sterne, che Diderot conobbe nell'originale, <title>Jacques le Fataliste</title> è un programmato coacervo di vicende, personaggi, discussioni, energici quadri realistici, non legati da un'interna logica o, meglio, mimetica riproduzione (con tutte le conseguenti variazioni stilistiche) del &amp;laquo;<foreign>d&amp;eacute;cousu</foreign>&amp;raquo; dell'esistenza.
Descrivendo solo l'aspetto dell'originale, essa dovrebbe presentarsi così:
Ispirato dalla lettura del <hi rend="italic">Tristram Shandy</hi> di Sterne, che Diderot conobbe nell'originale, <hi rend="italic">Jacques le Fataliste</hi> è un programmato coacervo di vicende, personaggi, discussioni, energici quadri realistici, non legati da un'interna logica o, meglio, mimetica riproduzione (con tutte le conseguenti variazioni stilistiche) del <hi rend="italic">d&amp;eacute;cousu</hi> dell'esistenza.

Citazioni e caratteristiche correlate

Come i cambiamenti di stile dei caratteri, le virgolette sono convenzionalmente usate per contraddistinguere diverse caratteristiche all'interno di un testo, tra le quali la più frequente è la citazione. Quando è possibile, è consigliabile codificare la caratteristica strutturale soggiacente, piuttosto che segnalare il semplice fatto che una citazione appare nel testo, usando i seguenti elementi:
<q>
contiene una citazione, manifesta o meno — una rappresentazione di discorso o pensiero marcata come se fosse espressa da qualcun altro (sia essa realmente citata o meno); in narrativa, le parole sono di solito quelle di un personaggio o di un narratore intradiegetico; nei dizionari, <q> può essere usato per indicare esempi, reali o inventati, dell'uso di un termine. Tra gli attributi:
type
può essere usato per indicare se il brano citato è parlato o pensato, oppure per caratterizzarlo con maggior precisione. Valori esemplificativi sono: diretto (per la rappresentazione del discorso diretto, di solito segnalato dalle virgolette); pensato (per la rappresentazione del pensiero, per esempio il monologo interiore).
who
identifica colui che pronuncia il discorso diretto.
<mentioned>
codifica parole o espressioni citate o riportate.
<soCalled>
contiene una parola o espressione per cui l'autore o il narratore non assume la responsabilità intelletuale, segnalate ad esempio tramite l'uso di virgolette o corsivi.
<gloss>
codifica una parola o espressione che fornisce una glossa o definizione per qualche altra parola o espressione. Tra gli attributi:
target
identifica la frase o parola associata.
Questo è un semplice esempio di citazione (tratto da Otto Ebrei di Giacomo Debenedetti):
<p>Concluso così il suo silenzioso ragionamento, il teste parla. E, giurato di dire la verità, tutta la verità, nient'altro che la verità, pronuncia queste parole, che giustamente confida siano per diventare memorabili: <q>«Dalla <emph>prima lista</emph> delle Fosse Ardeatine ho subito, per prima cosa, cassato i nomi di otto ebrei»</q>. Dentro di sé; Alianello si frega le mani: ha messo, non già al muro, ma spalle al muro, Alta Corte, invitati, opinione pubblica d'Italia e del mondo intero. Il nembo di sospetti e di prevenzioni che lo fasciava, va ora svaporando, si va ora tingendo di un dolce colore di nube rosata: una di quelle nuvole che somigliano a cigni, o cherubini in volo.</p>

Per registrare in che modo è stata stampata una citazione (per esempio, intralineare oppure messa in risalto in un blocco di testo citato), va usato l'attributo rend. Questo può essere usato anche per indicare il tipo di virgolette usate.

Il discorso diretto interrotto da un narratore può essere rappresentato semplicemente chiudendo la citazione e iniziandola di nuovo dopo l'interruzione, come nel seguente esempio:
<p><q>&mdash; Perché hai deviato? &mdash;</q> domandò Ivan. <q>&mdash; Perché ora ti sei fermato? Cosa guardi? Quella casa? Perché ti interessi a quella casa?</q></p>
Se è importante fornire l'idea che i due elementi <q> riproducono un unico discorso, possono essere usati gli attributi di collegamento next e prev, come descritto nella sezione Attributi di collegamento.
Le citazioni possono essere accompagnate dal riferimento alla fonte o a colui che parla, usando l'attributo who, sia che la fonte venga esplicitamente segnalata o meno nel testo, come nel seguente esempio (tratto da Suo marito di L. Pirandello):
<p><q who="Giustino">&mdash; Hai veduto? hai veduto? &mdash;</q> le singhiozzava intanto Giustino <q who="Giustino">&mdash; Se n'è andato,.. Rirì se n'è andato, perché noi non c'eravamo... tu non c'eri... e neanche io c'ero più... e allora il povero piccino ha detto: <q who="Rirì">&laquoE che ci faccio più io qua?&raquo</q> e se n'è andato... Se ti vedesse qua ora... Vieni! vieni! Se ti vedesse qua...</q></p>
Questo esempio mostra anche come le citazioni possano annidarsi all'interno di altre citazioni: un personaggio (Giustino) ne cita un altro (Rirì).

Il creatore di un testo elettronico deve decidere se i segni di citazione (per es. le virgolette) debbano essere rimpiazzati dai marcatori o se questi vadano aggiunti mantenendo i segni di citazione. Se i segni di citazione vengono rimossi dal testo, si può usare l'attributo rend per registrare il modo in cui erano stati resi nel testo originale.

Come per l'evidenziazione, non sempre è possibile o desiderabile interpretare in questa maniera la funzione dei segni di citazione in un testo. In tali casi, il marcatore <hi rend="citato"> può essere usato per codificare il testo citato senza fare assunzioni riguardo al suo status.

Parole o espressioni straniere

Le parole o espressioni che non sono nella lingua principale del testo, possono essere codificate come tali in due modi. Se la parola o l'espressione è già marcata per qualche ragione, l'elemento usato dovrebbe avere un valore per l'attributo globale lang, indicante la lingua usata. Se non c'è alcun elemento applicabile, può essere usato l'elemento <foreign> , sempre corredato dell'attributo lang. Per esempio:
<p>Giovanni ha molto <foreign lang="fra">savoir-faire</foreign>.</p>
<p>Hai letto <title lang="ted">Die Dreigroschenoper</title>?</p>
<p><mentioned lang="fra">Savoir-faire</mentioned> è il termine francese per competenza.</p>
<p>La corte ha emanato un ordine di <term lang="lat">mandamus</term>.

Come mostrano questi esempi, l'elemento <foreign> non dovrebbe essere usato per codificare parole straniere se altri elementi più specifici come <title> , <mentioned> , o <term> possono essere applicati. L'attributo globale lang può essere allegato a qualsiasi elemento al fine di indicare che il suo contenuto testuale è in una lingua diversa da quella principale del testo.

Note

Tutte le note, siano esse stampate a piè di pagina, alla fine di un testo, a margine, o in altri luoghi, devono essere codificate usando lo stesso elemento:
<note>
contiene una nota o annotazione. Tra gli attributi:
type
descrive il tipo di nota.
resp
indica chi è il responsabile dell'annotazione. Il valore potrebbe essere: autore, curatore, etc. o le iniziali di colui che ha inserito le annotazioni.
place
indica dove appare la nota nel testo originale. Esempi di valori sono: intralineare, interlineare, sinistra, destra, piede pagina, fine, per le note che appaiono rispettivamente come paragrafi marcati nel corpo del testo, tra le righe del testo, al margine sinistro o destro, a piè di pagina, oppure alla fine del capitolo o del volume.
target
indica il punto di inserimento della nota, o l'inizio del brano a cui si riferisce la nota.
targetEnd
indica la fine del brano a cui si riferisce la nota, se la nota non è inserita nel testo a quel punto.
anchored
indica se il testo originale mostra l'esatto punto di riferimento per la nota.
Se possibile, il corpo di una nota dovrebbe essere inserito nel testo nel punto esatto in cui appare il relativo rinvio o riferimento. Ciò non è possibile, per esempio, con i marginalia, che potrebbero non essere collegati ad un luogo preciso. Per semplicità, può essere adeguato posizionare le note marginali prima del paragrafo cui si riferiscono o prima di altri elementi. Le note possono anche essere posizionate in una sezione separata del testo (come avviene per le note a fine testo nei libri a stampa) e collegate al testo mediante i rispettivi attributi target.

L'attributo n può essere usato per fornire il numero o l'identificatore di una nota se necessario. Per distinguere tra le note d'autore e le note editoriali (qualora siano presenti entrambe), deve essere usato l'attributo resp; altrimenti occorre dichiarare esplicitamente di che tipo siano nella testata TEI.

Esempi (Dell'unità della lingua e dei mezzi per diffonderla: A. Manzoni e Delle cinque piaghe della Santa Chiesa A. Rosmini) :
<p>Tra i libri francesi, le <title>Lettere Provinciali</title> di Biagio Pascal segnano, riguardo alla dicitura usata ne' libri, il principio d'una nova e stabile maniera. Si può dire di esse, come dell'ingegno d'Ortensio disse Cicerone, che l'apparire e il sodisfare fu tutt'uno<note place="pede_pagina"> <q rend="italic" lang="lat">Q. Hortensii admodum adolescentis ingenium, ut Phidiae signum, simul adspectum et probatum est.</q> Brutus, LXIV.</note>; e un tal giudizio non fu mutato mai. [...] </p>
<p>Ma a questo, io di nuovo mi replicavo, che io ragionavo in coscienza, e che perciò nessuno aveva ragione di prendersela contro di me, quando anche io errassi: che io non cercavo punto il favore degli uomini, né alcun vantaggio temporale; e perciò, che se gli uomini delle due parti<note place="fine"><p>Dico <q>«gli uomini delle due parti»</q> perché nella Chiesa stessa non entrano né passioni né partiti, essendo ella assistita dallo Spirito Santo e quindi sotto questo aspetto non può averci nulla da temere da essa</p> </note> l'avessero presa contro di me, io sarei stato compensato dal testimonio della mia coscienza, e dall'aspettazione del giudizio inappellabile.</p>

Riferimenti incrociati e collegamenti

I riferimenti incrociati espliciti o i collegamenti da un punto di un testo ad un altro nello stesso documento XML possono essere codificati usando gli elementi descritti nella sezione Riferimenti incrociati semplici. Riferimenti o collegamenti a elementi di qualche altro documento XML, o di parti di documenti non-XML, possono essere codificati usando i puntatori estesi TEI descritti nella sezione Puntatori estesi. I collegamenti impliciti (come le associazioni tra due testi paralleli, o tra un testo e la sua interpretazione) possono essere codificati usando gli attributi di collegamento discussi nella sezione Attributi di collegamento

Riferimenti incrociati semplici

Un riferimento incrociato da un punto a un altro all'interno di un singolo documento può essere codificato usando uno dei seguenti elementi:
<ref>
un riferimento a un'altra posizione nel documento corrente, in termini di uno o più elementi identificabili, eventualmente caratterizzato da testo supplementare o da un commento.
<ptr>
un puntatore a un'altra posizione nel documento corrente, in termini di uno o più elementi identificabili.
Questi elementi condividono i seguenti attributi:
target
specifica la destinazione di un puntatore come uno o più identificatori XML.
type
categorizza il puntatore per qualche aspetto, usando qualsiasi conveniente insieme di categorie.
targType
specifica il tipo (o i tipi) di elemento al quale questo puntatore può rinviare.
crDate
specifica quando il puntatore è stato creato.
resp
specifica il creatore del puntatore.

La differenza tra questi due elementi è che <ptr> è un elemento vuoto, che individua semplicemente un punto dal quale si deve fare un collegamento, mentre <ref> può anche contenere del testo – solitamente il testo stesso del riferimento incrociato. L'elemento <ptr> invece sarà utilizzato per un riferimento incrociato rappresentato da dispositivi non verbali come un simbolo o un'icona, oppure, in un testo elettronico, da un bottone. È anche utile nei sistemi di gestione documentale, dove un programma di formattazione può generare la corretta forma verbale dei riferimenti incrociati.

Le seguenti due forme, per esempio, sono logicamente equivalenti (assumendo si documenti altrove l'esatta forma verbale dei riferimenti rappresentati dagli elementi <ptr> ):
Vedere specialmente <ref target="SEZ12">sezione 12 a pagina 34</ref>.
Vedere specialmente <ptr target="SEZ12">.
Il valore di un attributo target deve essere un identificatore XML nel documento XML corrente. Questo implica che il passaggio o l'espressione a cui si punta deve avere un identificatore, e deve perciò essere codificato come un elemento di qualche tipo. Nel seguente esempio, il riferimento incrociato punta ad un elemento <div1> :
... vedere specialmente <ptr target="SEZ12"> ... <div1 id="SEZ12"><head>Identificatori...
Poiché l'attributo id è globale, qualsiasi elemento nel documento può essere indicato come oggetto di un riferimento in questo modo. Nel seguente esempio, a un paragrafo è stato dato un identificatore cosicché possa essere puntato:
... questo è discusso nel <ref target="pspec">paragrafo sui collegamenti</ref> ... <p id="pspec">I collegamenti possono essere costruiti per qualsiasi tipo di elemento...
L'attributo targType può essere usato per specificare che l'elemento puntato deve essere di un particolare tipo, come nel seguente esempio:
... questo è discusso nella <ref target="dspec" targType="div1 div2"> sezione sui collegamenti</ref>
Questo riferimento dovrebbe dare errore se l'elemento con identificatore dspec non fosse una <div1> o una <div2> . Si noti comunque che questo controllo non può essere effettuato da un parser XML, poiché esso può solo controllare che esista qualche elemento identificato come dspec.
L'attributo type può essere usato per categorizzare in qualche modo il collegamento rappresentato dal puntatore. Gli attributi resp e crDate possono anche essere usati per rappresentare la persona o l'organizzazione responsabile della creazione del collegamento, e la sua data di creazione, come nell'esempio seguente:
... questo è discusso nella <ref type="xref" resp="aut" crdate="210305" target="dspec" targtype="div1 div2"> sezione di collegamento</ref>
Questi attributi sono probabilmente più utili nei sistemi ipertestuali che contengono moltissimi puntatori, usati per vari scopi e creati con vari mezzi.
Talvolta la destinazione di un riferimento incrociato non corrisponde a nessuna particolare caratteristica di un testo, e non può dunque essere codificata come elemento di un qualche tipo. Se la destinazione desiderata è semplicemente un punto del documento corrente, il modo più semplice per marcarla è l'introduzione di un elemento <anchor> nel punto appropriato. Se il target è una sequenza di parole non altrimenti codificate, può essere introdotto l'elemento <seg> per marcarle. Questi due elementi sono descritti come segue:
<anchor>
specifica una posizione o un luogo all'interno di un documento affinché possa essere puntato.
<seg>
identifica un frammento o un segmento di testo all'interno di un documento affinché possa essere puntato. Tra gli attributi:
type
categorizza il segmento.
Nel seguente esempio (fittizio), degli elementi <ref> sono usati per rappresentare dei punti nel testo che sono collegati, in qualche modo, ad altre parti dello stesso testo; nel primo caso a un luogo particolare, e nel secondo, ad una sequenza di parole:
Ritornando al <ref target="ABCD">punto dove ero rimasto</ref>, ho rilevato che <ref target="EFGH">tre parole</ref>, sono state sottolineate in rosso da un precedente lettore.
Questa codifica richiede che gli elementi con gli identificatori specificati (ABCD e EFGH in questo esempio) si trovino in qualche altro punto dello stesso documento. Qualora non esista alcun elemento a cui attribuire tali identificatori, si possono usare gli elementi <anchor> e <seg> :
...<anchor type="segnalibro" id="ABCD">... ...<seg type="target" id="EFGH">...</seg>...

L'attributo type dovrebbe essere usato (come sopra) per distinguere i diversi ruoli che questi elementi generici possono assumere in un testo. Altre applicazioni saranno discusse più avanti nella sezione Attributi di collegamento

Puntatori estesi

Gli elementi <ptr> e <ref> possono essere usati solo per i riferimenti incrociati o i collegamenti le cui destinazioni si trovino nello stesso documento XML della loro origine. Inoltre, essi possono riferirsi esclusivamente ad elementi XML. Gli elementi discussi in questa sezione non sono sottoposti a tali limitazioni.

<xptr>
definisce un puntatore a un'altra posizione nel documento corrente o in un documento esterno.
<xref>
definisce un puntatore ad un'altra posizione nel documento corrente o in un documento esterno, eventualmente corredato da testo supplementare o da un commento.
Oltre agli attributi applicabili ai puntatori già discussi sopra nella sezione Riferimenti incrociati semplici, questi elementi condividono i seguenti attributi supplementari, che vengono usati per specificare la destinazione di un riferimento incrociato o di un collegamento al posto dell'attributo target:
doc
indica il documento all'interno del quale deve trovarsi il luogo di destinazione richiesto; per default è il documento corrente.
from
indica l'inizio della destinazione del puntatore sotto forma di espressione nella sintassi per i puntatori estesi TEI; per default è l'intero documento indicato dall'attributo doc.
to
indica il punto finale della destinazione del puntatore sotto forma di espressione nella sintassi per puntatori estesi TEI; può essere specificato solo se è stato indicato l'attributo from.

Una trattazione completa del linguaggio formale usato per esprimere le destinazioni dei puntatori estesi TEI è al di fuori degli scopi di questo manuale; qui ci limiteremo a elencare solo alcune delle sue caratteristiche in genere più utili. Per maggiori dettagli rimandiamo alla versione completa delle Guidelines.

Un elemento <xptr> (o <xref> ) può riferirsi a un intero documento esterno semplicemente fornendo un nome di entità come valore dell'attributo doc, come in questo esempio:
&nbsp;si vedano le <xref doc="P4">TEI Guidelines</xref> per ulteriori approfondimenti

Questo esempio presuppone che sia stata dichiarata un'entità di sistema o pubblica con il nome P4. Tale dichiarazione va inserita all'interno della DTD attiva quando il documento viene sottoposto a parsing. Il modo per effettuare questa operazione dipende dal programma di editing XML in uso (come discusso ulteriormente nella sezione Immagini e grafica).

L'attributo from va usato per indicare una data posizione all'interno di qualunque documento specificato dall'attributo doc. La specificazione si basa su un linguaggio formale, denominato Sintassi per puntatori estesi TEI, del quale qui sono forniti solo alcuni dettagli. In questo linguaggio, le posizioni sono definite come una serie di passi (step), ognuno dei quali identifica una certa parte del documento, di norma nei termini delle posizioni identificate dal passo precedente. Per esempio potreste puntare alla terza frase del secondo paragrafo del capitolo secondo, selezionando il secondo capitolo nel primo passo, il secondo paragrafo nel secondo passo, e la terza frase nell'ultimo passo. Un passo può essere definito in relazione all'albero del documento, usando concetti come padre, discendente, precedente, etc., o, più vagamente, mediante pattern testuali, o indicando la posizione delle parole o dei caratteri. È altresì possibile usare una notazione non XML, o specificare una posizione all'interno di un'immagine in base a un sistema di coordinate

Gli attributi from e to usano la stessa notazione. Ciascuno punta a qualche porzione del documento di destinazione; il puntatore esteso nella sua totalità punta alla sezione che inizia con l'attributo from e continua fino al to.

Il primo passo in un percorso di localizzazione sarà spesso quello di specificare l'identificatore di qualche elemento all'interno del documento di destinazione, come in questo esempio:
<xptr doc="P3" from="id (SA)">
Questo puntatore seleziona l'intero elemento che reca l'identificatore SA all'interno della entità P3. Se è richiesta una destinazione più specifica, possono succedersi altri passi. Le seguenti parole chiave sono utilizzabili per selezionare altri elementi mediante le loro relazioni con l'elemento identificato dal passo precedente:
child
elementi da questo contenuti.
ancestor
elementi che lo contengono, direttamente o indirettamente
previous
elementi con lo stesso genitore di questo, ma che lo precedono nel documento.
next
elementi con lo stesso genitore di questo e che lo seguono nel documento.
preceding
elementi nel documento che iniziano prima di questo, senza tenere conto dei loro genitori.
following
elementi nel documento che iniziano dopo di questo, senza tenere conto dei loro genitori.
Ognuna di queste parole chiave implica un particolare insieme di elementi (l'insieme dei figli, l'insieme dei genitori, l'insieme dei discendenti, etc.); per specificare a quale elemento dell'insieme ci stiamo riferendo, la parola chiave può essere seguita da una lista tra parentesi che potrà contenere:
  • un numero positivo o negativo, che indichi quale dei molti possibili elementi trovati sia quello designato (+1 per indicare il primo elemento incontrato, partendo dalla posizione corrente, e -1 per indicare l'ultimo), o la parola chiave all, per indicare che ci si deve riferire a tutti gli elementi dell'insieme;
  • un identificatore generico, indicante il tipo dell'elemento richiesto, o un asterisco (*) indicante che qualsiasi tipo di elemento andrà bene;
  • una serie di nomi e valori di attributo, indicante che l'elemento selezionato deve avere attributi con i nomi e i valori specificati, se ve ne è qualcuno.
Riprendendo l'esempio precedente, il riferimento seguente selezionerà il terzo elemento <p> direttamente contenuto da qualsivoglia elemento dotato dell'identificatore SA:
<xptr doc="P4" from="id (SA) child (3 p)">
Similmente, assumendo che l'entità P4 sia in effetti un riferimento alla versione XML delle Guidelines TEI, il puntatore seguente seleziona la sezione 14.2.2 di tale pubblicazione, dove (per combinazione) viene formalmente definita la Sintassi per puntatori estesi:
Per ulteriori dettagli, vedere <ref doc="P4" from="id (SA) child (2 div2) child (2 div3)">Definizione della sintassi per puntatori estesi TEI</ref>
Normalmente, la destinazione di un riferimento incrociato sarà adeguatamente definita dall'attributo from. Per alcuni documenti, tuttavia, potrebbe essere più comodo definire sia la destinazione iniziale sia quella finale. Come già detto qui sopra, a questo scopo si dispone dell'attributo to. Per esempio:
<xptr doc="P4" from="id (xyz)" to="id (abc)">
è un puntatore esteso la cui destinazione è la sequenza che, nel documentoP4, inizia con qualsivoglia elemento con identificatore xyz e termina con qualsivoglia elemento con identificatore abc, sempre, come ovvio, all'interno del medesimo documento. Sono inclusi tutti gli elementi che si trovano tra questi due, indipendentemente dalla loro struttura; il puntatore è errato se la fine di abc precede l'inizio di xyz.
Questa sintassi permette di costruire facilmente specificazioni assai complesse. Per esempio, il seguente riferimento selezionerà il più prossimo elemento <head> che abbia un attributo lang con valore LAT, e che si trovi prima dell'inizio dell'elemento con l'identificatore SA:
<xptr doc="P4" from="id (SA) preceding (1 head lang lat)">
Se non viene fornito nessun valore per l'attributo doc, si assume che ci si riferisca al documento corrente. I riferimenti seguenti, dunque, sono semanticamente equivalenti. Entrambi indicano l'elemento con l'identificatore X1 all'interno del documento corrente:
<ptr target="X1"> <xptr from="id (X1)">

La Sintassi per puntatori estesi TEI è stata sviluppata prima delle più recenti specifiche dei linguaggi XLink e XPointer, i quali peraltro derivano in parte da essa. Attualmente si sta lavorando per armonizzare questi diversi linguaggi in vista del rilascio della nuova versione dello schema, la TEI P5

Attributi di collegamento

I seguenti attributi specifici per i collegamenti, sono definiti per ogni elemento nella DTD TEI Lite:

ana
collega un elemento con la sua interpretazione.
corresp
collega un elemento con uno o più altri elementi corrispondenti.
next
collega in un’unica aggregazione un elemento con l'elemento seguente.
prev
collega in un’unica aggregazione un elemento con l'elemento seguente.
L'attributo ana (analisi) si usa nei casi in cui un insieme di analisi astratte o interpretazioni siano state definite in qualche punto all'interno di un documento, come discusso estesamente nella sezione Interpretazione e analisi. Per esempio, un'analisi linguistica della frase Renzo ama Lucia può essere codificata come segue:
<seg type="frase" ana="SVO"> <seg type="lex" ana="NP1">Renzo</seg> <seg type="lex" ana="VV1">ama</seg> <seg type="lex" ana="NP1">Lucia</seg> </seg>

Questa codifica implica l'esistenza in un luogo del documento di elementi con identificatori SVO, NP1, e VV1, dove viene spiegato il significato di tali particolari codici. Si noti l'uso dell'elemento <seg> per marcare componenti particolari dell'analisi, distinti dall'attributo type.

L'attributo corresp (corrispondente) fornisce un modo semplice per rappresentare alcune forme di corrispondenza tra due elementi in un testo. Per esempio, in un testo multilingue, può essere usato per collegare traduzioni equivalenti, come nel caso seguente:
<seg lang="ITA" id="IT1" corresp="FR1">Renzo ama Lucia</seg> <seg lang="FRA" id="IT1" corresp="IT1">Renzo aime Lucia</seg>
Lo stesso meccanismo può essere usato per molti altri scopi. Nell'esempio seguente, viene usato per rappresentare delle coreferenze anaforiche:
<p>L'<name id="pepe">Alletto</name> pareva caduto dalle nuvole: non sapendo che pensare di quel discorso, guardava negli occhi il Ravì sorridendo.</p> <p>Per dir la verità non aveva mai aspirato seriamente alla mano di <name id="ste">Stellina</name>; ne <seg type="coref" corresp="ste">questa</seg>, per altro, aveva mai dato motivo a <seg type="coref" corresp="pepe">lui</seg> di farsi qualche illusione, più che non ne avesse dato a tant'altri giovanotti che le gironzavano attorno. <seg type="coref" corresp="ste">La ragazza</seg>, sì, <seg type="coref" corresp="pepe">gli</seg> piaceva; ma sapeva pur troppo di non essere in condizione di prender moglie, e neanche ci pensava. ... </p>
(Il brano è tratto da tratto da Il Turno di Luigi Pirandello.)
Gli attributi next e prev forniscono un sistema per collegare insieme le componenti di un elemento testuale discontinuo, come nell'esempio seguente:
<p><q id="Q1a" next="Q1b">&mdash; Ma sì! &mdash;</q> esclamai. <q id="Q1b" prev="Q1a">&mdash;Ha la febbre, e forte. Aspetti. Chiamo il signor Cavalena. Il nostro padrone di casa è medico.</q>

Interventi editoriali

Il processo di codifica di un testo elettronico ha molti aspetti in comune con il lavoro di edizione di un manoscritto o di un altro testo ai fini della pubblicazione a stampa. In entrambi i casi un editore accurato potrebbe voler registrare sia lo stato originale della fonte, sia ogni correzione editoriale o altro cambiamento introdotto. Gli elementi discussi in questa sezione e nella prossima forniscono alcuni strumenti atti a soddisfare tali esigenze.

La seguente coppia di elementi può essere usata per marcare delle correzioni, cioè dei cambiamenti editoriali introdotti laddove l'editore ritenga che l'originale presenti errori:
<corr>
contiene la forma corretta di un passaggio evidentemente errato nel testo. Tra gli attributi:
sic
dà la forma originale dell'errore presente nel testo.
resp
indica il soggetto responsabile (autore, editore o trascrittore) per la correzione contenuta nell'elemento <corr> .
cert
indica il grado di certezza attribuito alla correzione contenuta nell'elemento <corr> .
<sic>
contiene un frammento di testo riprodotto anche se evidentemente errato o impreciso. Tra gli attributi:
corr
fornisce la correzione di un errore palese in un testo.
resp
indica il soggetto responsabile per il suggerimento della correzione.
cert
indica il grado di certezza attribuito alla correzione.
La seguente coppia di elementi può essere usata per codificare gli interventi di normalizzazione, cioè i cambiamenti editoriali introdotti per salvaguardare la coerenza di un testo o per modernizzarlo:
<orig>
contiene la forma originale di una lezione della quale è data una forma regolarizzata in un valore di attributo. Tra gli attributi:
reg
fornisce la forma regolarizzata (normalizzata) del testo.
resp
identifica il soggetto responsabile dell'intervento di normalizzazione.
<reg>
contiene una lezione che è stata regolarizzata o normalizzata in qualche modo. Tra gli attributi:
orig
fornisce la forma non alterata del testo come si trova nella copia originale.
resp
identifica il soggetto responsabile della normalizzazione.
Per esempio il seguente passo (tratto da Il Turno di Luigi Pirandello):
Il Ravì, s'intende, non parlava a don Diego di queste minacce della figliuola diceva soltanto che bisognava avere un po' di piazienza, perché le ragazze, oh Dio, si sa...
tratto dall'edizione Quattrini del 1920 introduce l'errore piazienza per pazienza, come rileva Costanzo, e contiene la forma arcaica figliuola. Gli emendamenti possono essere così codificati:
... Il Ravì, s'intende, non parlava a don Diego di queste minacce della <reg orig="figliuola" resp="COD">figliola</reg>; diceva soltanto che bisognava avere un po' di <corr sic="piazienza" resp="Costanzo">pazienza</corr>, perché le ragazze, oh Dio, si sa...

Omissioni, soppressioni e aggiunte

Oltre alle correzioni o normalizzazioni di parole e frasi, editori e trascrittori possono anche introdurre materiale testuale mancante, oppure trascrivere dei brani che erano stati cancellati o depennati nel testo originale. Inoltre, alcuni passaggi possono essere particolarmente difficili da trascrivere perché di difficile decifrazione. I seguenti elementi possono essere usati per rappresentare tali fenomeni:
<add>
contiene lettere, parole o frasi inserite in un testo da un autore, copista, commentatore o correttore. Tra gli attributi:
place
se il materiale supplementare è interno alla copia originale del testo, ne indica la collocazione. I valori ad esempio possono essere intralinea(sulla stessa riga), sopralinea (sopra la riga), interlinea, sinistra (nel margine di sinistra), destra (nel margine di destra), sopra, sotto.
<gap>
indica un punto dove si è omesso del testo in una trascrizione, sia per ragioni editoriali descritte nel TEI header (nella sezione sui criteri di selezione), sia perché il materiale è illeggibile, o incomprensibile. Tra gli attributi:
desc
fornisce una descrizione del testo (o della porzione di pagina) omesso.
resp
indica l'editore, il traduttore o il codificatore responsabile per la decisione di non fornire la trascrizione del testo, da cui l'applicazione del marcatore <gap> .
<del>
contiene un carattere, parola o passaggio cancellati, marcati come cancellati, o altrimenti indicati come superflui o spuri, nella copia originale da parte di un autore, copista, commentatore o correttore. Tra gli attributi
type
classifica il tipo di cancellazione usando una tipologia adeguata.
status
può essere usato per indicare cancellature errate, per esempio tratti di linea che coprono troppo o troppo poco testo.
hand
indica la mano del soggetto che ha eseguito la cancellatura.
<unclear>
contiene una parola, una frase o un brano che non può essere trascritto con certezza perché è parzialmente illeggibile o incomprensibile nell'originale. Tra gli attributi:
reason
indica la ragione per la quale è difficile riportare il brano.
resp
indica il responsabile per la trascrizione del carattere, della parola o del brano inseriti nell'elemento <unclear> .
Questi elementi possono essere usati per registrare cambiamenti o congetture introdotte da un editore o da un trascrittore o, nel caso di materiale manoscritto, dall'autore o da un copista. Per esempio, se la fonte originale per un testo elettronico riporta:
I seguenti elementi sono forniti per per semplici interventi editoriali</eg>
può sembrare opportuno correggere quest'errore palese, ma allo stesso tempo registrare la soppressione del secondo per, superfluo, in questo modo:
I seguenti elementi sono forniti per <del resp="FC">per</del> semplici interventi editoriali
Il valore FC nell'attributo resp indica che FC è responsabile per la cancellzione della preposizione per duplicata .
Se l'originale presenta:
I seguenti elementi forniti per per semplici interventi editoriali
(cioè, se il verbo fosse stato inavvertitamente omesso) il testo corretto potrebbe essere il seguente:
I seguenti elementi <add resp="FC">sono</add> forniti per <del resp="FC">per</del> semplici interventi editoriali
Come prima il valore dell'attributo resp indica il responsabile che ha corretto l'omissione del verbo e la duplicazione della preposizione.
Questi elementi non sono limitati a cambiamenti introdotti da un editore critico; essi possono essere usati anche per registrare varianti d'autore in un manoscritto. Nel manoscritto de I limoni di Eugenio Montale l'autore ha prima di tutto scritto ‘tra gli alberi dai nomi poco usati’, poi ha tolto le parole ‘gli alberi’ e ha inserito le parole ‘le piante’; questa correzione potrebbe essere codificata nel modo seguente:
<l>tra <del hand="Montale" type="sovrascrittura">gli alberi</del> <add hand="Montale" place="sopralineare">le piante</add> dai nomi poco usati</l>:
in modo simile, gli elementi <unclear> e <gap> , possono essere usati insieme per indicare le omissioni di materiale illeggibile; l'esempio seguente (che riporta un passo dal Convivio di Dante nell'edizione a cura di C. Vasoli e D. De Robertis) mostra inoltre l'uso di <add> per una emendatio congetturale:
[...]che avessero sì leggiere le <unclear> <gap reason="indecifrabile"></unclear><add hand="ed">non</add> fittizie parole apprese;[...]
L'elemento <del> segnala un passaggio che è stato trascritto nel testo elettronico nonostante fosse stato soppresso sull'originale, mentre <gap> indica la posizione di un passaggio che è stato omesso dal testo elettronico indipendentemente dal fatto che fosse leggibile o meno. Un corpus linguistico scritto in una data lingua, ad esempio, può omettere lunghe citazioni in lingue straniere:
<p>...Un esempio di una lista che compare nel libro mastro del feudo di <name type="luogo">Koldinghus</name> <date>12/1611</date> è fornito a piè di pagina. Esso mostra la riscossione degli introiti di una rendita da parte di una vendita di miele.</p> <q><gap desc="citazione dal libro mastro" reason="danese"></q> <p>Una descrizione della totale struttura dei conteggi è ancora una volta...
Altri corpora (in particolare quelli prodotti prima dell'uso su grande scala dei lettori ottici) omettono sistematicamente figure e simboli matematici:
<p>Al fondo del vostro schermo sotto la mode line è il <term>minibuffer</term>. Questa è l'area in cui Emacs ripete i comandi e dove voi inserite e specificate i nomi dei file che Emacs deve trovare, i valori utili per la ricerca e la sostituzione, e così via. <gap desc="immagine della schermata di Emacs" reason="figura">

Nomi, date, numeri e abbreviazioni

Lo schema di codifica TEI definisce degli elementi atti a rappresentare un’ampia tipologia di informazioni che si presentano come dati strutturati e che possono apparire quasi ovunque in ogni tipo di testo. Queste informazioni, che rivestono un particolare interesse per varie discipline, si riferiscono in generale a oggetti esterni al testo stesso (come i nomi di persona e di luogo, i numeri e le date). Essi inoltre pongono particolari problemi in molte applicazioni di trattamento automatico del linguaggio naturale (NLP), a causa della molteplicità di forme sotto cui possono essere presentate all'interno di un testo. Gli elementi qui descritti riducono la difficoltà di sottoporre a trattamento informatico i testi che contengono tali informazioni, rendendole esplicite.

Nomi ed espressioni referenziali

Una espressione referenziale è un'espressione che si riferisce a una persona, un luogo, un oggetto, etc. Due elementi sono disponibili per codificare queste espressioni:
<rs>
contiene un nome o un'espressione referenziale generica. Tra gli attributi:
type
indica il tipo di oggetto a cui si riferisce l'espressione. Il valore può essere ad esempio persona, oggetto, luogo, etc.
<name>
contiene un nome proprio o un sintagma nominale. Tra gli attributi:
type
indica il tipo oggetto nominato.
L'attributo type va usato, quando sia possibile, per distinguere tra nomi di persone, luoghi e organizzazioni:
<lg type="ottava"> <l><rs type="persona">Orlando</rs>, che gran tempo inamorato</l> <l>fu de la bella <rs type="persona">Angelica</rs>, e per lei</l> <l>in <rs type="luogo">India</rs>, in <rs type="luogo">Media</rs>, in <rs type="luogo">Tartaria</rs> lasciato</l> <l>avea infiniti et immortal trofei,</l> <l>in <rs type="luogo">Ponente</rs> con essa era tornato,</l> <l>dove sotto i gran monti <rs type="luogo">Pirenei</rs></l> <l>con la gente di <rs type="luogo">Francia</rs> e de <rs type="luogo">Lamagna</rs></l> <l>re <rs type="persona">Carlo</rs> era attendato alla campagna,</l> </lg>
Come mostra il seguente esempio, l'elemento <rs> può essere usato per ogni riferimento a persone, luoghi, e così via, non necessariamente nella forma di nome proprio o di espressione nominale.
<lg> <l>piangendo disse: «Se per questo cieco</l> <l>carcere vai per altezza d'ingegno,</l> <l><rs type="persona">mio figlio</rs> ov'è? e perché non è teco?».</l> </lg>

L'elemento <name> , invece, è previsto per la rappresentazione di espressioni referenziali che consistano esclusivamente di nomi propri; può essere usato nello stesso modo dell'elemento <rs> , oppure può essere inserito all'interno di questo se un'espressione referenziale contiene sia nomi propri sia nomi comuni.

Il semplice atto di codificare una stringa di testo come nome non è sufficiente, di norma, per garantire la trasformazione automatica dei nomi di persona nelle forme canoniche che sono solitamente richieste per la costruzione di indici e repertori. Il nome che appare in un testo può essere scritto in maniera errata, parziale o imprecisa. Inoltre, i prefissi come di o de la, possono essere inclusi o meno nella forma di riferimento di un nome, a seconda della lingua e del paese di origine di colui che lo porta.

Al fine di affrontare tali complicazioni nella gestione dei nomi propri, questi elementi (e altri di simile finzione previsti nello schema) possono recare i seguenti attributi:
key
fornisce un identificatore univoco alternativo per l'oggetto o l'individuo nominato, in modo simile a una chiave per i record di database.
reg
contiene una forma regolarizzata o normalizzata del nome.
L'attributo key può essere utilizzato come un mezzo per identificare tutti i riferimenti allo stesso individuo o luogo sparsi nel documento:
<lg> <l>piangendo disse: «Se per questo cieco</l> <l>carcere vai per altezza d'ingegno,</l> <l><rs type="persona" key="GCav">mio figlio</rs> ov'è? e perché non è teco?».</l> </lg> <lg> <l>E <rs type="persona" key="D">io</rs> a <rs type="persona" key="PCav">lui</rs>: «Da me stesso non vegno:</l> <l><rs type="persona" key="Virg">colui ch'attende là</rs>, per qui mi mena</l> <l>forse <rs type="persona" key="Bea">cui</rs> <name type="individuo" key="GCav"> Guido</name> vostro ebbe a disdegno».</l> </lg>
Questa forma di codifica dovrebbe essere distinta dall'uso dell'attributo reg (regolarizzazione), che permette di segnalare la forma standard di un'espressione referenziale, come nell'esempio seguente:
<p>Il mio padre chiamavasi <name key="ANALF" reg="Alfieri, Antonio">Antonio Alfieri</rs>, la madre, <name key="MonMai" reg="Maillard di Tournono, Monica">Monica Maillard di Tournon</name>. Era questa di origine savoiarda, come i barbari di lei cognomi dimostrano; ma i suoi erano già da gran tempo stabiliti in <rs type="luogo" key="TO">Torino</rs>.

È possibile codificare più dettagliatamente le componenti dei nomi propri, usando l'insieme di elementi supplementari per i nomi e le date forniti dallo schema TEI completo.

Date e ore

Gli elementi per la codifica dettagliata di orari e date sono i seguenti elementi:
<date>
contiene una data in qualche formato. Tra gli attributi:
calendar
indica il sistema o calendario al quale appartiene la data .
value
fornisce il valore della data in forma standard, ad esempio gg-mm-aaaa (giorno-mese-anno).
<time>
contiene un'espressione che specifica un'ora in qualche formato. Tra gli attributi:
value
fornisce il valore dell'orario in una forma standard.

L'attributo value specifica una forma normalizzata per la data o l'ora, usando un formato standard come l'ISO 8601. Date o ore parziali (per es. 2004, Settembre 2004) possono essere espressi generalmente omettendo una parte del valore fornito; invece, date o orari imprecisi (per es. agli inizi di Agosto, un po' di tempo dopo le dieci e prima di mezzogiorno) possono essere espressi come intervalli di date o orari. Se si conosce con esattezza uno dei due estremi dell'intervallo di tempo o di data (per es. qualche tempo prima del 1230, alcuni giorni dopo Carnevale) si può utilizzare l'attributo exact per specificarlo.

Ecco alcuni esempi:
<date value="21-02-1980">21 Feb 1980</date> <date value="2004">2004</date> <date value="09-2004">Settembre 2004</date> Dato nel <date value="12-06-1977">dodicesimo giorno di giugno nell'anno di Nostro Signore millenovecentosettantasette della repubblica e ottantaseiesimo dell'Università</date> <l>specialmente quando fa nove sotto zero <l>e <time value="15:00"> alle tre del pomeriggio</time>

Numeri

I numeri possono essere scritti in lettere o in cifre (ventuno, XXI, 21) e la loro rappresentazione dipende dalla lingua (per esempio l'inglese 5th diviene 5. in greco; l'inglese 123,456.78 equivale all'italiano 123.456,78). Nelle applicazioni di trattamento automatico del linguaggio naturale o di traduzione automatica, spesso è utile distinguere queste dalle altre parti, più ‘verbali’, di un testo. In altre applicazioni, è invece importante registrare i valori numerici in una notazione standard. L'elemento <num> offre questa possibilità:
<num>
contiene un numero scritto in qualsiasi forma. Tra gli attributi:
type
indica il tipo di valore numerico. Valori suggeriti possono essere: frazione, ordinale (per i numeri ordinali), percentuale, cardinale (per i numeri cardinali).
value
fornisce il valore di un numero in una forma standard specifica per una data applicazione.
Per esempio:
<num value="33">xxxiii</num> <num type="cardinale" value="21">ventuno</num> <num type="percentuale" value="10">dieci per cento</num> <num type="ordinale" value="5">V</num>

Abbreviazioni e loro espansioni

Come nomi, date e numeri, le abbreviazioni possono essere trascritte nella forma in cui si trovano nel testo o possono essere sciolte; se necessario esse possono essere codificate mediante i seguenti elementi:
<abbr>
contiene abbreviazioni di ogni tipo. Tra gli attributi:
expan
fornisce l'espansione dell'abbreviazione.
type
permette al codificatore di classificare l'abbreviazione secondo un'adeguata tipologia. Valori esemplificativi sono: contrazione, brevigrafo, sospensione, intestazione, acronimo. L'attributo type può anche contenere dei valori come titolo (per i titoli onorifici), geografico, organizzazione, e così via, che descrivono la natura dell'oggetto a cui ci si riferisce.
L'elemento <abbr> è utile per distinguere elementi semilessicali come acronimi o termini gergali:
Ogni documento codificato, detto <term>Document Instance</term> deve contenere un riferimento alla propria <abbr>DTD</abbr> e deve rispettarne i vincoli (in realtà <abbr>XML</abbr>, a differenza di <abbr>SGML</abbr>, prevede il caso di un documento che sia sintatticamente <term>ben formato</term> ma non strettamente <term>valido</term> rispetto a una <abbr>DTD</abbr>.
L'attributo type può essere usato per distinguere i tipi di abbreviazioni a seconda delle loro funzioni, e l'attributo expan può essere usato per fornire un'espansione:
<pb n=“1v” ed=“VL3196”/> ... <div1 n=“5” type=“sonetto” rend=“RVF188”> <l n=“1”>Almo sol, quella fr<abbr type=“titulus” expan=“on” rend=“o(n)”>&otilde;</abbr>de ch’io sola amo,</l> <l n=“2”>Tu prima amasti, or sola al bel soggiorno</l> <l n=“3”>Verdeggia, <abbr type=“tironiana” expan=“et” rend=“(et)”>7</abbr> e sença pari poi che l’addorno</l> <l n=“4”>Suo male <abbr type=“tironiana” expan=“et” rend=“(et)”>7</abbr> e nostro vide <abbr type=“titulus” expan=“in” rend=“i(n)”>&itilde;</abbr></l>
(Il brano è tratto da Francesco Petrarca, Il Codice degli abbozzi, a cura di Laura Paolino, Milano-Napoli, Ricciardi, 2000; il testo è ricavato dal ms. Vaticano Latino 3196.)

Come si è visto nell'esempio precedente questo elemento è particolarmente utile nel caso di trascrizioni digitali di materiali manoscritti, nei quali le abbreviazioni sono molto frequenti.

Indirizzi

L'elemento <address> è usato per codificare qualsiasi tipo di indirizzo. Contiene uno o più elementi <addrLine> , uno per ogni riga dell'indirizzo.
<address>
contiene un indirizzo di qualsiasi genere, per esempio di un individuo, di un'organizzazione, di un editore.
<addrLine>
contiene una riga di un indirizzo.

Un semplice esempio:

<address> <addrLine>Istituto Eugenio Montale</addrLine> <addrLine>Via M. Laseppia, 35</addrLine> <addrLine>00169 Roma</addrLine> <addrLine>Italia</addrLine> <address>
Le singole parti di un indirizzo possono essere ulteriormente distinte utilizzando l'elemento <name> discusso sopra nella sezione Nomi ed espressioni referenziali.
<address> <addrLine>Istituto Eugenio Montale</addrLine> <addrLine>Via M. Laseppia, 35</addrLine> <addrLine>00169 <name type="cit">Roma</name></addrLine> <addrLine><name type="sta">Italia</name></addrLine> </address>

Liste ed elenchi

Per codificare qualsiasi genere di lista va usato l'elemento <list> . Una lista è una sequenza di voci testuali, che possono essere ordinate, non ordinate, o presentate sotto forma di glossario. Ogni elemento può essere preceduto da un'etichetta (in un glossario, questa etichetta è il termine che si sta definendo):
<list>
contiene qualsiasi sequenza di elementi organizzati come una lista. Tra gli attributi:
type
descrive la forma della lista. I valori possono essere termini come: ordinata, puntata (rispettivamente per liste con elementi numerati o in ordine alfabetico e liste con elenchi puntati), glossario (per le liste costituite da una serie di termini tecnici, ognuno marcato con un elemento <label> e accompagnato da una glossa o da una definizione marcata come <item> ), e semplice (per le liste con elementi non marcati da numeri o punti).
<item>
contiene un componente della lista.
<label>
contiene l'etichetta associata a un elemento in una lista; nei glossari, identifica il termine che si sta definendo.

I singoli elementi di una lista sono codificati con l'elemento <item> . Il primo <item> può eventualmente essere preceduto da un elemento <head> , che fornisce un titolo alla lista. La numerazione di una lista può essere omessa (se ricostruibile), indicata usando l'attributo n per ogni elemento, o (più di rado) codificata come contenuto usando l'elemento <label> . I seguenti esempi sono dunque equivalenti:

<list> <head>Una piccola lista</head> <item>primo elemento in lista</item> <item>secondo elemento in lista</item> <item>terzo elemento in lista</item> </list> <list> <head>Una piccola lista</head> <item n="1">primo elemento in lista</item> <item n="2">secondo elemento in lista</item> <item n="3">terzo elemento in lista</item> </list> <list> <list> <head>Una piccola lista</head> <label>1</label><item>primo elemento in lista</item> <label>2</label><item>secondo elemento in lista</item> <label>3</label><item>terzo elemento in lista</item> </list>

I diversi stili non dovrebbero essere confusi nella stessa lista.

Una semplice tavola a due colonne può essere trattata come una lista di tipo glossario, codificata come <list type="gloss"> . In questo caso ogni elemento comprende un termine e una definizione, codificati rispettivamente con <label> e <item> . Questi corrispondono agli elementi <term> e <gloss> , che possono comparire ovunque in un testo in prosa.
<list type="gloss"> <label>Agone</label><item>: specie di pesce detto anche alosa, che in primavera rimonta i fiumi d'acqua dolce; in acque salate è chiamato <term>cheppia</term></item> <label>Agresto</label><item>: succo di uva acerba o uvaspina</item> <label>Agusella, angusella</label><item>: auguìsola, pesce di mare lungo e stretto</item> <label>Alberges</label><item>: pesche primaticce (francese <term>alberge</term>)</item> <label>Ammalvare</label><item>: diventare come malva</item> <label>Anchioe</label><item>: acciuga</item> <label>Anesi confetti</label><item>: confetti di anici</item> <label>Anarazzo</label><item>: anatra giovane</item> <label>Assunare</label><item>: raccogliere</item> <label>Azza</label><item>: accia, filo di canapo o lino (per cucire l'arrosto ripieno).</item> </list>
(tratto da Cristoforo da Messisbugo, Banchetti composizioni di vivande e apparecchio generale)

Se la struttura interna di una lista di elementi è più complessa, è preferibile considerare la lista come una tabella, per la quale è definito un sistema di codifica specifico documentato più avanti (Tabelle).

Naturalmente, liste di qualsiasi tipo possono essere annidate all'interno degli elementi di una lista, fino al livello di profondità necessario. Qui, per esempio, un elenco contiene 3 elementi, il terzo dei quali contiene esso stesso una lista semplice (il passo è tratto da Carlo Pisacane, Saggio sulla rivoluzione):
<list> <item><label>1°</label> Ogni individuo ha il diritto di godere di tutti i mezzi materiali, di cui dispone la società, onde dar pieno sviluppo alle sue facoltà fisiche e morali.</item> <item><label>2°</label> Oggetto principale del patto sociale, il guarentire ad ognuno la libertà assoluta.</item> <item><label>3°</label> Indipendenza assoluta di vita, ovvero completa proprietà del proprio essere, epperò: <list> <item><label>a)</label> L'usufruttazione dell'uomo all'uomo abolita.</item> <item><label>b)</label> Abolizione d'ogni contratto ove non siavi pieno consenso delle parti contraenti.</item> <item><label>c)</label> Godimento de' mezzi materiali, indispensabili al lavoro, con cui deve provvedersi alla propria esistenza.</item> <item><label>d)</label> Il frutto de' proprii lavori sacro ed inviolabile.</item> </list> </item> </list>
Un elenco non deve necessariamente essere presentato sotto forma di una lista. Per esempio:
<p>I signori priori, udendo dire queste cose, ne seppe loro male fortemente; e di subito lo dissono a dua de' gonfalonieri, che erono in palazzo a praticare co' sindachi dell'arti quello ch'era loro imposto, e similmente dissono a quelli della guerra. Il perché di subito si prese partito, che dopo cena si mandò per tutti i gonfalonieri, che fu notte innanzi si potessino avere. E di presente si diliberò di far ragunare i dodici, e li otto della guerra, e sindachi dell'arti, ciò furono i quattro proposti dell'arti, i quali l'uno era <list><item>Romigi Rondinelli</item>, <item>Domenico di Filippo Corsi</item>, <item>Lapaccino del Toso, lanaiuolo</item>, <item>Benedetto di Carlone, pianellaio</item></list>; e ragunati si mise loro innanzi quello, che questo Simoncino aveva detto a' priori; che piacesse loro di consigliare.</p>

(il passo riportato è riportato da Alamanno Acciaioli, Cronaca)

Le liste di elementi bibliografici dovrebbero essere codificate usando l'elemento <listBibl> descritto nella prossima sezione.

Citazioni bibliografiche

Spesso è utile codificare le citazioni bibliografiche se esse appaiono nei testi trascritti a scopo scientifico, se non altro al fine di formattarle correttamente quando il testo sarà stampato. L'elemento <bibl> e fornito a tale fine:
<bibl>
contiene una citazione bibliografica scarsamente strutturata, i cui componenti possono, o meno, essere esplicitamente marcati.

Qualora sia utile distinguere le componenti di un riferimento bibliografico, possono essere usati in modo appropriato i seguenti elementi. È di solito utile codificare esplicitamente almeno quelle parti (come titoli di articoli, libri e periodici) che necessitano di formattazioni speciali. Gli altri elementi sono forniti per casi in cui sussista un particolare interesse per questi dettagli.

<author>
in un riferimento bibliografico contiene il nome dell'autore (o degli autori), personale o collettivo, di un'opera; è la dichiarazione di responsabilità primaria di ciascuna unità bibliografica.
<biblScope>
definisce l'estensione di un riferimento bibliografico, per esempio mediante una lista di numeri di pagina, o il titolo di una parte di un'opera più ampia.
<date>
contiene una data in qualunque formato.
<editor>
dichiarazione di responsabilità secondaria per un'unità bibliografica, per esempio il nome di un individuo, istituzione od organizzazione che figura come editore, compilatore, traduttore, etc. Tra gli attributi:
role
specifica il tipo di responsabilità intellettuale. Valori esemplificativi sono: traduttore, compilatore, illustratore; per default il valore è editor (curatore).
<imprint>
raggruppa informazioni che riguardano la pubblicazione o la distribuzione di un'unità bibliografica.
<publisher>
fornisce il nome dell'organizzazione responsabile della pubblicazione, o distribuzione di un'unità bibliografica.
<pubPlace>
indica il luogo in cui è stata pubblicata un'unità bibliografica.
<series>
contiene indicazioni sulla collana in cui un libro o un'altra unità bibliografica sono stati pubblicati.
<title>
contiene il titolo di un'opera, sia essa un articolo, un libro, un giornale, o una collana, incluso qualunque titolo o sottotitolo alternativo. Tra gli attributi:
type
qualifica il titolo, per esempio come principale, subordinato, etc.
level
indica il livello bibliografico o la classe del titolo. I valori permessi sono descritti nella sezione Cambiamenti negli stili di carattere

Per esempio la seguente nota editoriale potrebbe esser trascritta come segue:

Vedi anche il frammento del 1345 pubblicato dal Livi, Dante 50-52

Vedi anche il frammento del 1345 pubblicato dal <bibl><author>Livi</author> <title>Dante</title> <biblScope>50-52</biblScope></bibl>.

Per le liste di citazioni bibliografiche andrebbe usato l'elemento <listBibl> , che può contenere una serie di elementi <bibl> .

Tabelle

La gestione delle tabelle rappresenta una sfida considerevole per qualsiasi sistema di elaborazione testuale; tuttavia le tabelle, sia pure di semplice struttura, compaiono in così tanti testi che è necessario inserire un sistema per la loro rappresentazione anche in questo insieme semplificato dello schema di codifca TEI. I seguenti elementi sono provvisti a tale scopo:
<table>
contiene informazione testuale presentata in forma tabellare, in righe e colonne. Tra gli attributi:
rows
indica il numero di righe della tabella.
cols
indica il numero di colonne di ciascuna riga della tabella.
<row>
contiene una riga della tabella. Tra gli attributi:
role
indica il tipo d'informazione contenuta nelle caselle di una riga. I valori consigliati includono label, per le etichette o per informazioni descrittive e data, per gli effettivi valori dei dati.
<cell>
contiene una cella di tabella. Tra gli attributi:
role
indica il tipo di informazione contenuta nella casella. I valori consigliati includono label, per le etichette o per informazioni descrittive e data, per gli effettivi valori dei dati.
cols
indica il numero di colonne occupate da questa cella.
rows
indica il numero di righe occupate da questa cella.
Per esempio in questa tavola ripresa dal Politecnico di Cattaneo, l'autore indica le distanze che avrebbe dovuto coprire la strada ferrata tra Milano e Como progettata nel 1840:
<table rows="3" cols="2"> <row role="data"> <cell cols="1" role="label" rows="1">Nella provincia di Milano</cell> <cell cols="1" role="data" rows="1">23,854m.60</cell> </row> <row role="data"> <cell cols="1" role="label" rows="1">Como</cell> <cell cols="1" role="data" rows="1">15,267m.10</cell> </row> <row role="data"> <cell cols="1" role="label" rows="1">Totale</cell> <cell cols="1" role="data" rows="1">39,121m.70</cell> </row> </table>

Immagini e grafica

Non tutti i componenti di un documento sono necessariamente testuali. Anche il testo più semplice può contenere diagrammi o illustrazioni, per non parlare dei documenti in cui immagine e testo sono inestricabilmente connessi, o di risorse elettroniche in cui i due aspetti sono complementari.

Attraverso gli elementi descritti in questa sezione, il responsabile della codifica può semplicemente registrare la presenza di un elemento grafico all'interno di un testo, eventualmente con una breve descrizione del suo contenuto. Gli stessi elementi possono inoltre essere usati per inserire versioni digitalizzate di elementi grafici all'interno di un documento elettronico.
<figure>
indica il luogo in cui un elemento grafico deve essere inserito in un documento. Tra gli attributi:
entity
il nome di un'entità di sistema predefinita che contiene una versione digitalizzata dell'immagine da inserire.
<figDesc>
contiene una descrizione testuale dell'aspetto o del contenuto di un elemento grafico, utilizzabile quando si documenta un'immagine senza visualizzarla.

Tutta l'informazione testuale che accompagna l'elemento grafico, come un titolo e/o una didascalia, deve essere inclusa all'interno dell'elemento <figure> in un elemento <head> e in uno o più elementi <p> , così come qualsiasi altro testo che appaia al suo interno. Si consiglia fortemente di fornire una descrizione testuale dell'immagine, nell'ambito di un elemento <figDesc> . Tali informazioni potranno essere usate da applicazioni che non sono in grado di visualizzare immagini e renderanno accessibile il documento ai lettori con problemi alla vista (tale descrizione di solito non è considerata parte integrante del documento vero e proprio).

La più semplice applicazione di questi elementi consiste nel marcare la posizione di un'immagine, come nell'esempio:
<pb n="413"> <figure></figure> <pb n="414">
(si noti che il marcatore finale non può essere omesso, anche se l'elemento non ha contenuto). Più spesso un'immagine avrà almeno un titolo identificativo che va codificato mediante l'elemento <head> . Inoltre, spesso è opportuno includere una breve descrizione dell'immagine come nel seguente esempio:
<figure> <head>Tobiolo e l'angelo</head> <figDesc>raffigura il passo biblico (Tob. VI, 2-5), in cui si narra che Tobiolo e l'angelo decisero di passare la notte presso il fiume Tigri.</figDesc> </figure>

Quando è disponibile una versione digitalizzata di un elemento grafico, è chiaramente preferibile includerla nel punto appropriato all'interno del testo. Gli elementi grafici, come le fotografie, sono normalmente memorizzate in entità (file) distinte da quelle che contengono il testo di un documento, basate su una differente notazione (formato di memorizzazione). La DTD TEI Lite supporta immagini codificate nei formati standard CGM, PNG, TIFF, GIF, o JPEG con i nomi di notazione cgm, png, tiff, gif, e jpeg 2 .

Qualunque formato venga usato per codificare l'immagine, essa può essere inserita all'interno del documento nella stessa maniera. Il primo passo consiste nella dichiarazione di una entità di un determinato tipo, che specifica un nome per l'entità, un identificatore esterno (ad esempio un nome di file) e la notazione adottata. Per esempio, ipotizzando che l'immagine digitalizzata di Tobiolo fosse stata archiviata in formato TIFF nel file tobi.tif, sarebbe necessaria una dichiarazione d'entità come la seguente:
<!ENTITY tobiFig SYSTEM "tobi.tif" NDATA tiff>
Tutte queste dichiarazioni devono essere elaborate prima del documento stesso; i modi per effettuare tale operazione sono discussi nel capitolo Una semplice introduzione a XML e in molti altri testi introduttivi a XML e SGML.
Una volta che la dichiarazione sopra menzionata è attiva, per inserire l'immagine digitalizzata nel punto appropriato del documento è sufficiente fornire un valore all'attributo entity dell'elemento <figure> .
<figure entity="tobiFig"> <head>Tobiolo e l'angelo</head> <figDesc>raffigura il passo biblico (Tob. VI, 2-5), incui si narra che Tobiolo e l'angelo decisero di passare la notte presso il fiume Tigri.</figDesc> </figure>

Interpretazione e analisi

Si afferma spesso che qualsiasi codifica testuale è una forma d'interpretazione o di analisi. Sebbene sia certamente difficile, se non impossibile, distinguere con precisione e secondo criteri assoluti tra informazioni ‘oggettive’ e informazioni ‘soggettive’, non vi è dubbio sul fatto che i giudizi relativi alle seconde siano di norma più controversi di quelli che si riferiscono alle prime. Molti studiosi, pertanto, preferiscono esplicitare tali interpretazioni soggettive solo a patto che sia possibile indicare esplicitamente al lettore che esse vanno considerate con maggiore cautela rispetto al resto della codifica. Questa sezione descrive alcuni degli elementi forniti dallo schema TEI per far fronte a tale esigenza.

Frasi ortografiche

Di norma l'attività interpretativa spazia attraverso un testo senza tenere in particolare conto le canoniche unità strutturali. Un utile accorgimento preliminare alla intensiva esplicitazione di interpretazioni consiste, pertanto, nel segmentare il testo in una serie di unità discrete e identificabili, ognuna delle quali potrà essere dotata di un'etichetta da usare come ‘riferimento canonico’. Al fine di facilitarne l'impiego in questo senso, tali unità non possono sovrapporsi né annidarsi una nell'altra. Esse possono essere rappresentate adeguatamente mediante il seguente elemento:
<s>
identifica una unità testuale all'interno del documento, al fine di creare uno schema di riferimento che copra l'intero testo. Tra gli attributi:
type
assegna l'unità testuale a una determinata categoria (per esempio una frase può essere classificata come dichiarativa, interrogativa, etc.)
L'elemento <s> , come peraltro suggerisce il nome (che richiama l'inglese sentence), è usato comunemente (almeno nelle applicazioni in campo linguistico) per codificare le frasi ortografiche, ovvero unità definite da caratteristiche ortografiche come l'interpunzione. Il passaggio tratto da Il lanciatore di Giavellotto già esaminato in precedenza, per esempio, può essere diviso in unità come segue:
<pb n="163"> <div1 type="capitolo" n="16"> <p><s n="001">&mdash; <q>Sono contenta che tu sia bravo,</q> &mdash;</s> <s n="002">infine poté dire quietamente la madre.</s> <p><s n="003">Dam&amp;iacute;n sorrise.</s> <p><s n="004">&mdash; <q>Bravo tanto da impressionare i professori.</s> <s n="005">Tanto bravo da diventare un artista.</s> <s n="006">Te lo meriti perché sei buono;</s> <s n="007">e se lo merita anche tuo nonno.</s> <s n="008">Anche lui è un artista; anche se è rimasto a fare cocci... un vero artista.</s> <s n="009">Chissà anche lui come sarà contento.</s> <s n="010">Il segno D.P. continua;</s> <s n="011">continua anche nell'arte, come ha detto il professore.</s></q>

Si noti come gli elementi <s> non possano essere annidati: l'inizio di un elemento <s> presuppone la chiusura di quello precedente. Se per individuare le unità testuali si adotta il metodo mostrato nell'esempio, è allora opportuno estenderne la codifica in modo uniforme all'intero testo analizzato. In questo modo ogni parola risulterà inclusa in un elemento <s> ben determinato, il cui identificatore potrà essere usato successivamente per riferirsi ad esso in modo univoco. Qualora gli identificatori impiegati in un documento siano univoci, al posto dell'attributo n adottato nell'esempio precedente si può allora utilizzare l'attributo id.

Elementi generali per annotazioni interpretative

Abbiamo già introdotto un elemento di segmentazione più generale, il <seg> , utile a identificare la destinazione non altrimenti marcata di riferimenti e collegamenti ipertestuali (si veda la sezione Riferimenti incrociati e collegamenti); esso identifica qualsiasi segmento testuale di livello frase al quale il codificatore può assegnare un determinato tipo (mediante l'attributo type) e un identificatore univoco. In questo modo esso può essere usato per codificare caratteristiche testuali il cui trattamento non è esplicitamento previsto nelle Guidelines TEI.

Per esempio, le Guidelines: non prevedono alcun elemento <apostrophe> per codificare le parti di un testo letterario in cui il narratore si rivolge direttamente al lettore (o all'ascoltatore). Si potrebbe affrontare il problema considerando queste come istanze dell'elemento <q> , distinte dalle altre tramite un valore appropriato per l'attributo who. Una soluzione più semplice, e certamente più generale, invece, potrebbe essere l'uso dell'elemento <seg> come segue:
<p> <seg type="apostrophe">E insomma, lo volete fare anche voi, sì o no, questo esperimento con me, una buona volta?</seg> </p>
(il passo è tratto da Uno, nessuno e centomila di Luigi Pirandello).

L'attributo type dell'elemento <seg> può assumere qualsiasi valore, e può così essere usato per registrare fenomeni testuali di livello frase di ogni genere; è buona norma specificare i valori usati e il loro significato nel TEI Header.

Un elemento <seg> di un dato tipo (diversamente dall'elemento <s> ) può essere annidato all'interno di un elemento <seg> dello stesso tipo o di tipo differente. Ciò consente di rappresentare strutture piuttosto complesse; alcuni esempi sono stati forniti nella sezione Attributi di collegamento. Tuttavia, poiché esso deve rispettare il requisito sintattico secondo cui gli elementi devono essere correttamente annidati e non possono sovrapporsi l'un l'altro, non può rispondere all'esigenza di associare un'annotazione interpretativa a segmenti arbitrari di un testo, i quali potrebbero ignorare completamente la struttura gerarchica del documento. Esso inoltre impone che l'interpretazione stessa sia rappresentata da un singolo valore codificato veicolato dall'attributo type.

Nessuna di tali restrizioni si applica all'elemento <interp> , che fornisce un sistema potente e flessibile per codificare annotazioni interpretative assai complesse in modo relativamente semplice.
<interp>
fornisce un'annotazione interpretativa che può essere collegata a intervalli di testo. Tra gli attributi:
type
indica il tipo di fenomeno rilevato nel brano. Valori possibili sono figura retorica, personaggio, tema, allusione, o il nome del particolare genere discorsivo di cui si identificano le istanze.
value
indica lo specifico fenomeno testuale rilevato.
resp
indica il responsabile dell'interpretazione.
inst
punta ai luoghi testuali a cui si applica l'analisi o l'interpretazione rappresentata dall'elemento corrente.
<interpGrp>
raggruppa un insieme di elementi <interp> .

Questi elementi permettono al codificatore di specificare sia le classi dei fenomeni soggetti ad analisi, sia le particolari occorrenze di ciascuna classe implicata nel processo analitico-interpretativo. Così, mentre con <seg> si può asserire solamente che qualcosa è un'apostrofe, con <interp> si può asserire che si tratta di un'istanza (apostrofe) di una classe più generale (quella delle figure retoriche).

Inoltre, <interp> è un elemento vuoto che deve essere collegato al passaggio a cui si applica tramite l'attributo ana discusso nella sezione Attributi di collegamento, oppure tramite il suo stesso attributo inst. Questo significa che si è in grado di rappresentare qualsiasi tipo di analisi, senza doversi preoccupare della struttura gerarchica del documento, e inoltre che si possono raggruppare annotazioni analitiche di un dato tipo. L'elemento specifico <interpGrp> è fornito per quest'ultimo scopo.

Prendiamo per esempio questo brano tratto da La lupa di Giovanni Verga:
<p>Al villaggio la chiamavano <name rend="it">la Lupa</name> perché non era sazia giammai &mdash; di nulla. Le donne si facevano la croce quando la vedevano passare, sola come una cagnaccia, con quell'andare randagio e sospettoso della lupa affamata; ella si spolpava i loro figlioli e i loro mariti in un batter d'occhio, con le sue labbra rosse, e se li tirava dietro alla gonnella solamente a guardarli con quegli occhi da satanasso, fossero stati davanti all'altare di Santa Agrippina. Per fortuna <name rend="it">la Lupa</name> non veniva mai in chiesa né a Pasqua, né a Natale, né per ascoltar messa, né per confessarsi. &mdash; Padre Angiolino di Santa Maria di Gesù, un vero servo di Dio, aveva persa l'anima per lei.</p>

Supponiamo che si vogliano analizzare diversi aspetti della narrazione, come riferimenti ai personaggi singoli e collettivi, figure retoriche e luoghi della narrazione. Diverse parti del brano, per esempio, potrebbero essere associate alle figure retoriche dell'iperbole e della metafora; a indicazioni di riferimento alla protagonista, alle donne, agli uomini, a Padre Angiolino; a indicazione di luogo relative al villaggio o alla chiesa.

Queste annotazioni analitiche possono essere collocate ovunque all'interno dell'elemento <text> ; è comunque buona norma inserirle tutte in uno stesso luogo (ad esempio in una sezione apposita del peritesto iniziale o di quello finale), come nell'esempio che segue:
<back> <div1 type="Interpretazione"> <interp id="fig-met" resp="FC" type="figura retorica" value="metafora"> <interp id="fig-ipe" resp="FC" type="figura retorica" value="iperbole"> <!-- ... --> <interp id="vil" resp="FC" type="luogo narrazione" value="villaggio"> <interp id="ch" resp="FC" type="luogo narrazione" value="chiesa"> <!-- ... --> <interp id="ref-prot" resp="FC" type="referente" value="protagonista"> <interp id="ref-don" resp="FC" type="referente" value="donne"> <interp id="ref-uo" resp="FC" type="referente" value="uomini"> <!-- ... --> </p> <div1>
L'evidente ridondanza di questa codifica può essere considerevolmente ridotta usando l'elemento <interpGrp> per raggruppare tutti quegli elementi <interp> che condividono valori di attributi comuni, come segue:
<back> <div1 type="Interpretazione"> <interpGrp type="figura retorica" resp="FC"> <interp id="fig-met" value="metafora"> <interp id="fig-sim" value="similitudine"> <!-- ... ..> </interpGrp> <interpGrp type="luogo narrazione" resp="FC"> <interp id="vil" value="villaggio"> <interp id="ch" value="chiesa"> <!-- ... --> </interpGrp> <interpGrp type="referente" resp="FC"> <interp id="ref-prot" value="protagonista"> <interp id="ref-don" value="donne"> <interp id="ref-uo" value="uomini"> <!-- ... --> </interpGrp> </p> <div1> </back>
Una volta definite, tali interpretazioni possono essere collegate alle parti del testo cui si riferiscono secondo una o entrambe le modalità sopra indicate. L'attributo ana può essere associato a qualsiasi elemento appropriato:
<p id="P2" ana="vil">Al villaggio la chiamavano <name id="P2.1" rend="it" ana="ref-prot">la Lupa</name> perché non era <seg id="P2.2" ana="fig-met">sazia</seg> giammai &mdash;di nulla. Le <seg id="P2.3" ana="ref-don">donne</seg> si facevano la croce quando la vedevano passare, sola <seg id="P2.4" ana="fig-sim"> come una cagnaccia</seg>, con <seg id="P2.5" ana="fig-met">quell'andare randagio e sospettoso della lupa affamata</seg>; ...
È anche possibile che gli elementi <interp> puntino mediante l'attributo inst a tutte le parti del testo cui si applicano:
<div1 type="Interpretazione"> <interpGrp type="figura retorica" resp="FC"> <interp id="fig-met" value="metafora" inst="P2.2 P2.4 P2.5"> <!-- ... ..> <interp id="vil" value="villaggio" inst="P2"> <!-- ... --> <interp id="ref-prot" value="protagonista" inst="P2.1"> <interp id="ref-don" value="donne" inst="P2.3"> <!-- ... -->
L'elemento <interp> non è limitato a un tipo particolare di analisi. L'analisi letteraria qui esemplificata non è che una delle possibilità; si potrebbe analogamente utilizzare <interp> per fornire un'analisi linguistica delle parti del discorso. Per esempio, l'analisi sintattica della frase data nella sezione Attributi di collegamento potrebbe essere rappresentata in questo modo:
<interp id="NP1" type="pos" value="sintagma-nominale, singolare"> <interp id="VV1" type="pos" value="coniugazione-verbo, terza-singolare, tempo-presente">

Documentazione tecnica

Sebbene questo manuale si focalizzi principalmente sull'utilizzazione dello schema TEI per la codifica digitale di documenti pre-esistenti in forma cartacea, lo stesso schema può essere usato per la creazione di documenti ‘digitali nativi’. Nella preparazione di nuovi documenti, XML si rivela assai efficace: la struttura del documento può essere rappresentata chiaramente, e lo stesso testo elettronico può essere riutilizzato per molti scopi — ad esempio, per ottenere sia una versione ipertestuale consultabile su schermo sia una versione a stampa ben formattata a partire da una medesima fonte elettronica.

Per facilitare questo genere di applicazioni, nella TEI Lite sono stati inclusi un certo numero di elementi supplementari, sottoforma di estensioni della DTD TEI, utilizzabili per la codifica di caratteristiche peculiari della documentazione tecnica, in particolare quella riguardante XML.

Elementi supplementari per i documenti tecnici

I seguenti elementi possono essere usati per codificare le caratteristiche particolari dei documenti di genere tecnico:

<eg>
contiene un singolo breve esempio del tema tecnico in discussione, per esempio un frammento di codice o un campione di codifica XML.
<code>
contiene un breve frammento di codice, in un qualsiasi linguaggio formale (spesso un linguaggio di programmazione).
<ident>
contiene un identificatore di qualche tipo, per esempio il nome di un elemento o attributo XML.
<gi>
contiene uno speciale tipo di identificatore: un identificatore generico XML, o nome di elemento.
<kw>
contiene una parola chiave in un qualche linguaggio formale.
<formula>
contiene una formula matematica o chimica, opzionalmente rappresentata in qualche notazione non-XML. Tra gli attributi:
notation
specifica la notazione usata per rappresentare il corpo della formula.
Il seguente esempio mostra come questi elementi possano essere usati per codificare un brano tratto da un corso di introduzione al linguaggio di programmazione JAVA:
<p>Di solito si inizia a parlare di linguaggio con un programma come il seguente: <eg> public class HelloWorld { public static void main (String[] args) { String grtg = "Hello world!" System.out.println(grtg); } } </eg></p> <p>Questo semplice esempio dichiara una variabile <ident>grgt</ident> di tipo <kw>String</kw> nella linea <code>String grtg = "Hello world!"</code>. Per questa variabile è assegnato il valore <mentioned>Hello world!</mentioned>. Questo è seguito da una istruzione di <code> System.out.println </code>.

Un'applicazione di fotocomposizione, dato un testo come il precedente, può essere programmata in modo da formattare appropriatamente gli esempi (per esempio, conservando le interruzioni di linea, o usando dei caratteri tipografici diversi). Analogamente, l'uso di marcatori come <ident> e <kw> facilita notevolmente la costruzione di un indice dei termini.

L'elemento <formula> dovrebbe essere usato per racchiudere una formula matematica o chimica presentata all'interno del testo come un elemento distinto. Poiché le formule generalmente comportano un'ampia varietà di peculiari caratteristiche tipografiche, normalmente assenti nei testi ordinari, sarà necessario comporre il corpo della formula in una speciale notazione. La notazione applicata dovrebbe essere specificata nell'attributo notation, come nell'esempio seguente:
<formula notation="tex"> \ (E = mc^ {2} \) </formula>

La DTD TEI Lite non predefinisce per default alcuna notazione non XML. In questo caso dunque l'uso della notazione Tex va opportunamente dichiarato all'interno del DTD subset.

Un caso particolare si verifica quando oggetto della trattazione di un documento tecnico in formato XML è la stessa codifica XML. In tali documenti, chiaramente, è essenziale distinguere nettamente il mark-up che compare negli esempi da quello del documento stesso. Una soluzione semplice prevede l'uso dell'entità predefinita lt per rappresentare ciascun carattere < che segnali l'inizio di un marcatore XML all'interno dell'esempio. Una soluzione più generale consiste nel codificare l'intero esempio in modo tale che venga ignorato da un parser XML. Questo può essere fatto mediante l'inclusione dell'esempio all'interno di uno speciale costrutto XML denominato CDATA marked section, come nel seguente esempio:
<p>Una lista dovrebbe essere codificata come segue: <eg><![ CDATA [ <list> <item>Primo elemento della lista</item> <item>Secondo elemento</item> </list> ]]> </eg> L'elemento <gi>list</gi> consiste di una serie di elementi <gi>item</gi>.

L'elemento <list> all'interno dell'esempio non sarà considerato come una parte del documento propriamente detto, poiché è racchiuso all'interno di una sezione marcata (che inizia con la dichiarazione di marcatura speciale <![CDATA[, e finisce con ]]>).

Da notare inoltre l'uso dell'elemento <gi> per marcare i riferimenti ai nomi degli elementi (o identificatori generici) all'interno del corpo del testo.

Sezioni generate automaticamente

La maggior parte dei moderni sistemi di composizione di documenti sono in grado di generare automaticamente intere sezioni, come un sommario o un indice analitico. Lo schema TEI Lite fornisce un elemento per indicare il luogo in cui si deve collocare una tale sezione generata.

<divGen>
indica la collocazione di una sezione testuale generata automaticamente da un elaboratore di testo. Tra gli attributi:
type
specifica quale tipo di sezione testuale generata deve apparire (per esempio indice, sommario, etc.). Valori esemplificativi sono: index (un indice analitico deve essere generato e inserito in questo punto), toc (una tavola di contenuti), figlist (una lista delle illustrazioni), tablist (una lista delle tavole).
L'elemento <divGen> può essere inserito ovunque sia permesso un elemento di divisione, come nel seguente esempio:
<front> <titlePage> ... </titlePage> <divGen type="toc"/> <div type="Prefazione"><head>Prefazione</head> ... </div> </front> <body> ... </body> <back> <div1><head>Appendice</head> ... </div1> <divGen type="index" n="Indice"/> </back>

Questo esempio mostra inoltre come l'attributo type permetta di distinguere i vari tipi di sezione che vengono generati: nel primo caso si tratta di un sommario (toc), nel secondo di un indice analitico (index).

Quando, per qualche motivo, si deve codificare un indice o un sommario preesistente (invece di generarne uno), si deve usare l'elemento <list> discusso nella sezione Liste ed elenchi

Generazione di indici tematici

Mentre la generazione di un sommario da un documento codificato correttamente non comporta problemi per un elaboratore automatico, la produzione di un indice tematico di buona qualità richiederà nella maggior parte dei casi una marcatura più attenta. Potrebbe non essere sufficiente produrre una lista di tutte le parti marcate in qualche modo particolare, anche se estrarre (per esempio) tutte le occorrenze di elementi del tipo <term> o <name> costituirà spesso un buon punto di partenza per un indice.

La DTD TEI fornisce uno speciale marcatore <index> che può essere usato sia per marcare le parti del documento che dovranno essere indicizzate, sia il modo in cui dovrà essere effettuata l'indicizzazione.

<index>
marca un luogo del testo che deve essere indicizzato per qualche scopo. Tra gli attributi:
level1
stabilisce la forma principale della voce di indice.
level2
stabilisce la forma di secondo livello, se esiste.
level3
stabilisce la forma di terzo livello, se esiste.
level4
stabilisce la forma di quarto livello, se esiste.
index
precisa a quale indice appartiene la voce.
Per esempio il secondo paragrafo di questa sezione potrebbe presentare la seguente codifica:
... La TEI lite prevede uno speciale tag <gi>index</gi> <index level1="Creazione di indici" /> <index level1="index (tag)" level2="Usare nella costruzione di indici" /> che può essere usato ...
L'elemento <index> , inoltre, può essere usato per fornire informazioni di tipo analitico o interpretativo. Per esempio, in uno studio su Ovidio si potrebbe voler registrare tutti i riferimenti del poeta ai diversi personaggi, per effettuare una analisi stilistica comparata. Nei seguenti versi delle Metamorfosi tale analisi potrebbe registrare i riferimenti del poeta a Giove (come deus, se, o come soggetto di confiteor [nella forma flessiva numero 227]), a Giove-in-guisa-di-toro (come imago tauri fallacis e soggetto di teneo), e così via. 3
<l n="3.001">iamque deus posita fallacis imagine tauri</l> <l n="3.002">se confessus erat Dictaeaque rura tenebat</l>
Si potrebbe ottenere il risultato desiderato usando l'elemento <note> , discusso nella sezione Note, o l'elemento <interp> , discusso nella sezione Interpretazione e analisi. Qui mostriamo come si possa ottenere il medesimo risultato usando l'elemento <index> .
Partiamo dal presupposto che il fine è la generazione di più di un indice: uno dei nomi di divinità (chiamato dn), un altro di riferimenti onomastici (chiamato on), un terzo di riferimenti pronominali (chiamato pr) e così via. Un modo di procedere potrebbe essere il seguente:
<l n="3.001">iamque deus posita fallacis imagine tauri <index index="dn" level1="Iuppiter" level2="deus"/> <index index="on" level1="Iuppiter (taurus)" level2="imago tauri fallacis"/></l> <l n="3.002">se confessus erat Dictaeaque rura tenebat <index index="pr" level1="Iuppiter" level2="se"/> <index index="v" level1="Iuppiter" level2="confiteor (v227)"/> <index index="mons" level1="Dicte" level2="rura Dictaea"/> <index index="regio" level1="Creta" level2="rura Dictaea"/> <index index="v" level1="Iuppiter (taurus)" level2="teneo (v9)"/></l>

Per ogni elemento <index> si genera una voce nell'indice appropriato, usando come lemma il valore dell'attributo level1, e come seconda parola chiave quello dell'attributo level2, che contiene la parola citata in forma nominativa. Il riferimento vero e proprio sarà preso dal contesto in cui appare l'elemento <index> , per esempio, in questo caso, l'identificatore dell'elemento <l> che lo contiene.

Set di caratteri, diacritici, etc.

Con l'introduzione di XML e la sua adozione di Unicode come set di caratteri obbligatorio per tutti i documenti, gran parte dei problemi che in precedenza erano determinati dalla rappresentazione di varie lingue e sistemi di scrittura sono venuti meno. Per chi lavora con le forme standard delle lingue europee, in particolare, non sussiste più alcuna necessità particolare: ogni editor XML dovrebbe consentire di inserire direttamente le lettere accentate e ogni altro carattere non incluso nel set ASCII, ed essi dovrebbero essere memorizzati nel file prodotto in un modo tale da essere facilmente trasferibili direttamente tra piattaforme diverse, sia sottoforma di caratteri Unicode sia come riferimenti a entità carattere.

Per mantenere la compatibilità con sistemi informatici più obsoleti, tuttavia, la DTD TEI Lite include le dichiarazioni per un buona parte della entità carattere più diffuse, cosicché tali caratteri possano essere digitati e salvati sottoforma di stringhe sostitutive.

Volendo, è possibile usare dei nomi di entità personalizzati nei file conformi TEI, a condizione di fornire per essi le adeguate dichiarazioni di entità; tuttavia i nomi standardizzati, anche se lunghi, hanno il vantaggio della chiarezza; tali nomi sono ragionevolmente comprensibili per chiunque conosca l'inglese e ravvisi che si tratta di un nome di carattere, anche senza ricorso ad alcuna lista. Lo stesso non può dirsi di molti altri schemi per la rappresentazione di caratteri accentati.

Qualora il carattere desiderato non compaia negli insiemi d'entità pubbliche, è consigliabile cercare di generare un nome usando le stesse convenzioni di denominazione usate negli insiemi ISO, in questo modo:
digrammi
formare i nomi di entità per digrammi aggiungendo la stringa lig alle lettere che formano il digramma. Se serve una forma maiuscola, entrambe le lettere vanno date in maiuscolo (ricordiamo che la differenza maiuscolo/minuscolo è di solito significativa nei nomi di entità). Per esempio: aelig (æ), Aelig (Æ), szlig (ß) .
diacritici e accenti
formare i nomi di entità per lettere accentate nella maggior parte delle lingue dell'Europa occidentale aggiungendo una delle seguenti stringhe alla lettera che ha l'accento, il quale può essere posto ai di sopra o al di sotto della lettera.
umlaut
usare uml per l'umlaut o dieresi: per esempio auml (ä), Auml (Ä), euml (ë), iuml (sic: ï), ouml (ö), Ouml (Ö), uuml (ü), Uuml (Ü).
acute
usare acute per accento acuto o tonico: per esempio aacute (á), eacute (é), Eacute (É), iacute (í), oacute (ó), uacute (ú).
grave
usare grave per l'accento grave: per esempio agrave (à), egrave (è), igrave (í), ograve (ò), ugrave (ù).
circ
usare circ per il circonflesso: per esempio acirc (â), ecirc (ê), Ecirc (Ê), icirc (î), ocirc (ô), ucirc (û).
tilde
usare tilde per la tilde: per esempio atilde (ã), Atilde (Ã), ntilde (ñ), Ntilde (Ñ), otilde (õ), Otilde (Õ).
consonanti
i seguenti sono nomi di entità consigliati per alcune consonanti speciali che si trovano nelle lingue dell'Europa occidentale: ccedil (ç), Ccedil (Ç), eth (eth minuscolo o d barrata anglosassone e islandese, ð), ETH (eth maiuscolo, Ð), thorn (thorn minuscolo, þ), THORN (thorn maiuscolo, Þ).
punteggiatura
i seguenti sono nomi di entità consigliati per alcuni segni di punteggiatura che si incontrano comunemente: ldquo (doppia virgoletta inglese a sinistra), rdquo (doppia virgoletta inglese a destra), mdash (trattino largo uno spazio), hellip (ellissi orizzontale, tre punti ravvicinati), rsquo (singola virgoletta inglese a destra).

Materiali peritestuali

Peritesto iniziale

Le sezioni preliminari di un testo, come il frontespizio, le epistole di prefazione, etc., possono fornire informazioni di tipo linguistico e sociale utilissime per molte finalità di ricerca, specialmente nel caso di testi antichi. La TEI fornisce una serie di raccomandazioni per codificare gli elementi testuali che si incontrano solitamente nel peritesto iniziale, illustrate brevemente qui di seguito.

Il frontespizio

L'inizio della pagina del frontespizio dovrebbe essere codificato con l'elemento <titlePage> . Tutto il testo contenuto nella pagina andrebbe trascritto e marcato appropriatamente mediante i seguenti elementi:
<titlePage>
contiene la pagina di frontespizio di un testo
<docTitle>
contiene il titolo di un documento, in tutti i suoi elementi costitutivi, come appaiono sul frontespizio; deve essere diviso in elementi <titlePart> .
<titlePart>
contiene una suddivisione del titolo di un'opera, come appare sul frontespizio; va inoltre usato per frammenti senza collocazione fissa del frontespizio che non fanno parte del titolo, attribuzioni di paternità, etc. Tra gli attributi:
type
precisa il ruolo di una suddivisione del titolo. I valori suggeriti includono: principale, sottotitolo, descrittivo (una parafrasi descrittiva dell'opera inclusa nel titolo), alternativo.
<byline>
contiene la dichiarazione di responsabilità primaria di un'opera, che si trova sul frontespizio oppure all'inizio o alla fine dell'opera.
<docAuthor>
contiene il nome dell'autore del documento, così come è dato sul frontespizio (spesso, ma non sempre, inserito in un elemento <byline> ).
<docDate>
contiene la data di edizione del documento, come indicata (abitualmente) sul frontespizio.
<docEdition>
contiene la dichiarazione dell'edizione, così come è presentata sul frontespizio di un documento.
<docImprint>
contiene la dichiarazione delle note tipografico-editoriali (luogo e data di pubblicazione, nome dell'editore), così come appare (abitualmente) alla base del frontespizio.
<epigraph>
contiene una citazione, anonima o attribuita, che appare all'inizio di una sezione o capitolo, o sul frontespizio.

Gl stili grafici dei caratteri dovrebbero essere marcati mediante l'attributo rend quando è necessario, come precedentemente descritto. Le Guidelines TEI non prevedono al momento la possibilità di fornire una descrizione molto dettagliata della spaziatura e delle dimensioni dei caratteri usati nei titoli ornamentali. I cambiamenti di lingua devono essere marcati con l'uso appropriato dell'attributo <lang> o dell'elemento <foreign> , a seconda dei casi. I nomi, qualora apparissero, devono essere marcati usando l'elemento <name> , come altrove.

A titolo dimostrativo mostriamo di seguito due esempi di frontespizio:
<titlePage> <docAuthor>Luigi Pirandello</docAuthor> <docTitle> <titlePart type="main">TUTTI I ROMANZI</titlePart> </docTitle> <byline>a cura di <name>Giovanni Macchia</name></byline> <byline>con la collaborazione di <name>Mario Costanzo</name></byline> <byline>Introduzione di <name>Giovanni Macchia</name></byline> <docTitle> <titlePart type="parte">volume primo</titlePart> </docTitle> <figure entity="logo" /> <docImprint> <publisher> <name>Arnolodo Mondadori Editore </name> </publisher> <pubPlace><name>Milano</name></pubPlace> </docImprint> </titlePage> <titlePage> <titlePart type="main">Rime</titlePart> <byline>di <docAuthor type="main" n="Bembo, Pietro">Pietro Bembo</docAuthor></byline> <titlePart type="sub1">corrette, illustrate, ed accresciute con le annotazioni</titlePart> <byline>di <docAuthor type="cur" n="Seghezzi, Antonio Federico">Anton-Federigo Seghezzi, </docAuthor></byline> <titlePart type="sub2">e la Vita dell'Autore Novellamente rifatta sopra quella </titlePart> <byline>Di <docAuthor n="Beccadelli, Ludovico">Monsig. Lodovico Beccatelli.</docAuthor></byline> <docEdition>Edizione seconda.</docEdition> <docImprint> <pubPlace n="Bergamo (I)">In Bergamo )( </pubPlace> <docDate value="1753">MDCCLIII</docDate> <publisher>Appresso Pietro Lancellotti</publisher> <titlePart type="lic">Con Licenza de' Superiori</titlePart> </docImprint> </titlePage>

Materiali introduttivi

Le principali sezioni testuali all'interno del peritesto dovrebbero essere codificate come elementi <div> o <div1> ; i seguenti valori per l'attributo type possono essere usati al fine di distinguere i vari tipi di sezioni testuali introduttive:
prefazione
un testo indirizzato al lettore, dall'autore, curatore o editore, eventualmente in forma di lettera.
introduzione
un testo indirizzato al lettore, dall'autore, curatore o editore, eventualmente in forma di lettera.
dedica
un testo (spesso una lettera) indirizzato a qualcuno che non sia il lettore generico, in cui l'autore solitamente offre l'opera all'attenzione della persona in questione.
abstract
un riassunto in prosa del contenuto dell'opera.
ringraziamenti
i ringraziamenti
sommario
un sommario (di solito da codificare come <list> )
decorazione
una decorazione del frontespizio, eventualmente corredata da testo.
Come qualsiasi altra sezione del testo, anche le sezioni del peritesto possono contenere elementi di livello strutturale inferiore, o elementi non strutturali. Esse inizieranno in genere con un'intestazione o un titolo di qualche tipo, che deve essere marcato mediante l'elemento <head> . Le epistole conterranno i seguenti elementi supplementari:
<salute>
contiene una formula o un saluto di apertura in una prefazione, un'epistola dedicatoria o altre sezioni di un testo, o una formula di saluto alla fine di una lettera, prefazione, etc.
<signed>
contiene la formula di commiato apposta alla fine di una prefazione, di un'epistola dedicatoria, o di altre divisioni di un testo.
<byline>
contiene la dichiarazione di responsabilità primaria di un'opera, che si trova sul suo frontespizio oppure all'inizio o alla fine dell'opera.
<dateline>
contiene una breve descrizione del luogo, data, periodo, etc. di produzione di una lettera, fatto di cronaca o altre opere, messa all'inizio o alla fine di questi, a mo' di titolo o di chiusura.
<argument>
una lista formale o una descrizione in prosa dei temi trattati in una sezione del testo.
<cit>
una citazione da qualche altro documento, insieme ad un riferimento bibliografico alla sua fonte.
<opener>
raggruppa date, firme, saluti ed espressioni simili che appaiono come un gruppo preliminare all'inizio di una sezione, specialmente se si tratta di una lettera.
<closer>
raggruppa date, firme, saluti ed espressioni simili che appaiono come un gruppo preliminare alla fine di una sezione, specialmente se si tratta di una lettera.

Le epistole che appaiono altrove in un testo conterranno, ovviamente, questi medesimi elementi.

Come esempio, la dedica all'inizio dell'Epistola XIII a Cangrande della Scala di Dante, andrebbe codificata come segue:
<div type="dedica"> <opener> <head>Magnifico atque victorioso domino <name>domino Cani Grandi de la Scala</name> sacratissimi Cesarei Principatus in urbe Verona et civitate Vicentie Vicario generali,</head> <byline>devotissimus suus <name>Dantes Alagherii</name> florentinus natione non moribus,</byline> <salute>vitam orat per tempora diuturna felicem et gloriosi nominis perpetuum incrementum.</salute> </opener> ... </div>

Peritesto finale

Sezioni strutturali del peritesto finale

In virtù dell'evoluzione e dei cambiamenti intervenuti nella pratica editoriale, il peritesto finale di un volume può contenere virtualmente tutti gli elementi elencati sopra per l'avantesto; in questo caso laddove si presenti lo stesso fenomeno andrebbero usati gli stessi elementi. Inoltre, il peritesto finale può contenere all'interno dell'elemento <back> i tipi di materiali elencati qui di seguito. Come avviene per le divisioni strutturali del corpo del testo, essi dovrebbero essere codificati come elementi <div> o <div1> , e categorizzati mediante i seguenti valori dell'attributo type:
appendice
un'appendice
glossario
una lista di parole e definizioni, solitamente nella forma di una lista di tipo glossario.
note
una serie di note (ciascuna codificata mediante l'elemento <note> ).
bibliografia
una serie di riferimenti bibliografici, solitamente nella forma dello speciale elemento lista bibliografica <listBibl> , le cui voci sono singoli elementi <bibl> .
indice
un insieme di voci di indice, eventualmente rappresentate come una lista strutturata o una lista di tipo glossario, corredata di un eventuale titolo ( <head> ), e talora di alcuni paragrafi di testo introduttivo o di chiusura (la TEI definisce ulteriori elementi specializzati per generare indici nella produzione di documenti, descritti prima nella sezione Generazione di indici tematici).
colophon
un'indicazione alla fine del libro che precisa dove, quando e da chi è stato stampato; nei libri moderni esso spesso contiene dettagli di produzione e identifica i caratteri tipografici usati.

Il frontespizio elettronico

Ogni documento conforme alla TEI è dotato di una intestazione che fornisce meta-informazioni analoghe a quelle fornite dal frontespizio di un testo a stampa. L'intestazione è introdotta mediante l'elemento <teiHeader> ed è composta da quattro parti principali:
<fileDesc>
contiene una descrizione bibliografica completa del documento digitale.
<encodingDesc>
documenta le relazioni tra un testo elettronico e la fonte, o le fonti, da cui è stato tratto.
<profileDesc>
contiene una descrizione dettagliata degli aspetti non bibliografici relativi al documento, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e l'ambiente in cui si sono svolte le interviste per la costituzione di corpora della lingua parlata.
<revisionDesc>
riassume la storia delle revisioni di un documento elettronico.
Un corpus o una collezione di testi, che condividono molte caratteristiche, possono avere una intestazione generale per il corpus, e intestazioni individuali per ogni componente del corpus stesso. In questo caso l'attributo type indica il livello a cui si colloca il TEI Header.
<teiHeader type="corpus">
introduce l'intestazione per le meta-informazioni relative al corpus.
Alcuni elementi del TEI Header contengono semplicemente del testo libero, codificato mediante uno o più elementi <p> . Altri sono raggruppati all'interno di elementi contenitori:
  • gli elementi i cui nomi finiscono in Stmt (per statement) racchiudono un insieme di elementi che registrano informazioni strutturate.
  • gli elementi i cui nomi finiscono in Decl (per declaration) includono informazioni sulle specifiche pratiche di codifica messe in atto nel documento.
  • gli elementi i cui nomi finiscono in Desc (per description) contengono una descrizione in testo libero.

L'elemento <fileDesc> è obbligatorio. Contiene una descrizione bibliografica completa del documento digitale, mediante i seguenti elementi:
<titleStmt>
raggruppa le informazioni sul titolo di un'opera e sulle responsabilità del suo contenuto intellettuale.
<editionStmt>
raggruppa le informazioni relative a una data edizione del testo.
<extent>
descrive le dimensioni approssimative del testo elettronico, memorizzato su un dato supporto, espresse in una qualsiasi unità di misura adeguata.
<publicationStmt>
raggruppa le informazioni relative alla pubblicazione e distribuzione di un testo, elettronico o meno.
<seriesStmt>
raggruppa le informazioni sulla collana, se esiste, alla quale appartiene la pubblicazione.
<notesStmt>
raggruppa tutte le note che forniscono informazioni supplementari su un testo oltre a quelle registrate in altre parti della descrizione bibliografica.
<sourceDesc>
fornisce una descrizione bibliografica del testo (o dei testi) da cui è stato tratto o generato un testo elettronico.
Il TEI Header ha al minimo la seguente struttura:
<teiHeader> <fileDesc> <titleStmt> ... </titleStmt> <publicationStmt> ... <publicationStmt> <sourceDesc> ... <sourceDesc> </fileDesc> </teiHeader>

L'area del titolo

Un elemento <titleStmt> può contenere i seguenti elementi:
<title>
contiene il titolo di un'opera, sia essa articolo, libro, giornale o collana, inclusi tutti i titoli alternativi o i sottotitoli.
<author>
in un riferimento bibliografico, contiene il nome dell'autore/i, personale o collettivo, di un'opera; costituisce la dichiarazione di responsabilità primaria per ogni unità bibliografica.
<sponsor>
specifica il nome dell'eventuale organizzazione o istituzione che sponsorizza il progetto di digitalizzazione.
<funder>
specifica il nome di un individuo, istituzione od organizzazione che ha finanziato la realizzazione del progetto o del testo.
<principal>
fornisce il nome del principale responsabile della creazione di un testo elettronico.
<respStmt>
fornisce una dichiarazione di responsabilità relativa al responsabile del contenuto intellettuale di un testo, un'edizione, una registrazione, una collana, se gli elementi specifici per autori, curatori, etc., non sono sufficienti o non sono adatti.
È opportuno, ma non obbligatorio, che il titolo del documento elettronico sia distinto da quello del testo di origine, per esempio mediante le seguenti formule:
[titolo della fonte]: trascrizione in formato digitale [titolo della fonte]: edizione elettronica Versione elettronica di: [titolo della fonte]
L'elemento <respStmt> contiene i seguenti sotto-componenti:
<resp>
contiene un'espressione che descrive per esteso la natura della responsabilità intellettuale di una persona.
<name>
contiene un nome proprio o un'espressione sostantivale.
Ad esempio:
<titleStmt> <title>Il turno: edizione elettronica</title> <author>Luigi Pirandello</author> <respStmt><resp>Edizione elettronica a cura di</resp> <name>Fabio Ciotti</name></respStmt> </titleStmt>

L'area dell'edizione

L'elemento <editionStmt> raggruppa le informazioni relative a una data edizione di un testo (dove edizione è usato nell'accezione bibliografica comune del termine) e potrebbe includere i seguenti elementi:
<edition>
descrive le particolarità di un'edizione di un testo.
<respStmt>
fornisce una dichiarazione di responsabilità relativa al responsabile del contenuto intellettuale di un testo, un'edizione, una registrazione, una collana, se gli elementi specifici per autori, curatori, etc., non sono sufficienti o non sono adatti.
Ad esempio:
<editionStmt> <edition n="U2">terza bozza sostanzialmente revisionata <date>1987</date> </edition> </editionStmt>

La determinazione esatta di cosa costituisca una nuova edizione di un testo elettronico è lasciata al giudizio di colui che effettua la codifica.

La dichiarazione delle dimensioni

L'elemento <extent> fornisce in modo approssimato le dimensioni del file.

Ad esempio :
<extent>117 Kb in UTF-8</extent>

L'area della pubblicazione

L'elemento <publicationStmt> è obbligatorio. Può contenere una semplice descrizione in prosa o insiemi dei seguenti elementi:
<publisher>
fornisce il nome dell'organizzazione responsabile della pubblicazione, o distribuzione di un'unità bibliografica.
<distributor>
fornisce il nome di una persona o di un'organizzazione responsabile della distribuzione di un documento.
<authority>
fornisce il nome di una persona o di un'organizzazione responsabile della messa a disposizione di un file elettronico, quando non coincidano con l'editore o il distributore.
Almeno uno di questi tre elementi deve essere presente, a meno che tutte le informazioni sulla pubblicazione non siano fornite in testo libero. Questi elementi possono a loro volta contenere i seguenti elementi:
<pubPlace>
contiene il nome del luogo di pubblicazione di un documento.
<address>
contiene un indirizzo, per esempio di un editore, di un'organizzazione o di un singolo individuo.
<idno>
fornisce un identificatore, standardizzato o meno, usato per identificare un'unità bibliografica. Tra gli attributi:
type
categorizza l'identificatore, per esempio come codice ISBN o altri generi di identificatori standard.
<availability>
fornisce informazioni sulla disponibilità di un testo, per esempio su qualsiasi restrizione che si applica alla sua utilizzazione o distribuzione, il suo statuto in merito al copyright, etc. Tra gli attributi:
status
fornisce un codice che identifica la disponibilità effettiva di un testo. I valori possibili possono essere: limitato, libero, parziale.
<date>
contiene una data in qualunque formato.
Ad esempio:
<publicationStmt> <publisher>Biblioteca Italiana</publisher> <pubPlace>Roma</pubPlace> <date>2003</date> <idno>bibit:cibit:200401251534</idno> <availability> <p>Questo documento digitale è liberamente accessibile per uso personale o scientifico in base a quanto stabilito dalla Licenza d'uso BibIt (<xref>http://www.bibliotecaitaliana.it/license</xref>). Ogni uso commerciale è vietato.</p> </availability> </publicationStmt>

Informazioni sulle collane e area delle note

L'elemento <seriesStmt> contiene informazioni sulla collana, se esiste, a cui appartiene una pubblicazione. Può contenere <title> , <idno> o <respStmt> .

L'elemento <noteStmt> , se usato, contiene uno o più elementi <note> che a loro volta contengono una nota o un'annotazione. Ad alcune delle informazioni che si trovano nell'area delle note nella bibliografia convenzionale, sono stati assegnati degli elementi specifici nello schema TEI.

La descrizione della fonte

L'elemento <sourceDesc> è un elemento obbligatorio che registra i dettagli relativi alla o alle fonti da cui è derivato il documento elettronico. Può contenere del testo libero o dei riferimenti bibliografici più o meno strutturati, mediante uno o più dei seguenti elementi:
<bibl>
contiene un riferimento bibliografico non rigorosamente strutturato, le cui componenti possono, o meno, essere esplicitamente marcate.
<biblFull>
contiene un riferimento bibliografico rigorosamente strutturato, che può contenere tutti gli elementi definiti nella TEI e visti sopra per la descrizione di un file.
<listBibl>
contiene una lista di citazioni bibliografiche di qualunque tipo.
Si vedano i seguenti esempi:
<sourceDesc> <bibl>Foscolo, Ugo. Le opere / Ugo Foscolo ; a cura di Pagliai, Francesco ; Folena, Gianfranco ; Scotti, Mario - Firenze : F. Le Monnier , 1985</bibl> <sourceDesc> <sourceDesc> <bibl> <title>Opere</title> <author>Foscolo, Ugo</author> <editor id="ed" role="editor">Puppo, Mario</editor> <publisher>Mursia</publisher> <pubPlace>Milano</pubPlace> <date>1966</date> </bibl> </sourceDesc

La descrizione della codifica

L'elemento <encodingDesc> specifica i metodi e i principi editoriali che hanno governato la trascrizione e la codifica di un testo. Il suo uso è fortemente consigliato. Può essere costituito da una descrizione in prosa, oppure da uno o più tra i seguenti elementi:
<projectDesc>
descrive dettagliatamente il fine o lo scopo per cui un testo elettronico è stato codificato, insieme a qualunque altra informazione rilevante che riguarda il procedimento con cui il file è stato prodotto.
<samplingDecl>
contiene una descrizione dei principi e dei metodi usati nella selezione dei testi adottata per la creazione di un corpus o di una collezione.
<editorialDecl>
fornisce dettagli su principi e pratiche editoriali seguite nella codifica di un testo.
<tagsDecl>
fornisce informazioni dettagliate relative ai marcatori applicati a un documento XML.
<refsDecl>
specifica il modo in cui sono stati costruiti i sistemi di riferimento canonici del testo.
<classDecl>
contiene una o più tassonomie che definiscono l'insieme dei codici di classificazione associati al testo.

Descrizione del progetto e del campionamento

Esempi di <projectDesc> e di <samplingDesc> :
<encodingDesc> <projectDesc> <p>Testo digitalizzato e codificato nell'ambito del progetto Biblioteca Italiana</p> </projectDesc> </encodingDesc>
<encodingDesc> <samplingDecl>Campione di 2000 parole estratto dall'inizio del testo</samplingDecl> </encodingDesc>

Dichiarazioni editoriali

L'elemento <editorialDecl> contiene una descrizione testuale delle pratiche adottate nella codifica del testo. Di solito questa descrizione dovrebbe coprire i seguenti argomenti, ognuno dei quali può essere inserito in un paragrafo separato.
correzione
come e in quali circostanze sono state apportate correzioni nel testo.
normalizzazione
il livello di regolarizzazione o normalizzazione apportata rispetto alla fonte.
citazione
il trattamento riservato alle virgolette dell'originale -- se siano state conservate o sostituite da riferimenti ad entità, se siano state distinte le virgolette aperte e chiuse, etc.
sillabazione
il trattamento riservato ai trattini (specialmente quelli a fine riga) nell'originale – se siano stati conservati o sostituiti da riferimenti ad entità, etc.
segmentazione
il modo in cui è stato segmentato il testo, per esempio in frasi, unità toniche, strati grafemici, etc.
interpretazione
quali informazioni analitiche o interpretative sono state aggiunte al testo.
Ad esempio:
<editorialDecl> <p>Correzione di livello medio: controllo a video tramite collazione con l'edizione di riferimento</p> <p>I simboli di citazione e di discorso diretto presenti sulla fonte cartacea sono stati rappresentati sulla versione digitale</p> <p>I trattini di sillabazione a fine riga sono stati soppressi e le parole ricomposte</p> </editorialDecl>

Dichiarazione di codifica, sistemi di riferimento e classificazioni

L'elemento <tagsDecl> va utilizzato per fornire informazioni dettagliate sui marcatori XML che effettivamente compaiono all'interno di un documento. Esso può contenere una semplice lista degli elementi usati, con un contatore per ognuno, composta usando i seguenti elementi speciali:
<tagUsage>
fornisce informazioni sull'uso di uno specifico elemento all'interno del più esterno elemento <text> di un documento conforme TEI. Tra gli attributi:
gi
il nome (identificatore generico) dell'elemento indicato dal marcatore.
occurs
specifica il numero di occorrenze di questo elemento all'interno del testo.
L'elemento <rendition> va usato per documentare le differenti maniere in cui gli elementi sono visulizzati nel testo originale.
<rendition>
fornisce informazioni sulla modalità di presentazione grafica individuate per uno o più elementi.
L'attributo render dell'elemento <tagUsage> va usato per fornire l'identificatore unico di un elemento <rendition> che specifica come tale elemento va reso graficamente.
Per esempio:
<tagsDecl> <tagUsage gi="text" occurs="1"> <tagUsage gi="body" occurs="1"> <tagUsage gi="p" occurs="12"> <tagUsage gi="hi" occurs="6"> </tagsDecl>

Questa dichiarazione di codifica (fittizia) sarebbe appropriata per un testo che contenga dodici paragrafi nel suo corpo, all'interno del quale sono stati marcati sei elementi <hi> . Da notare che se viene usato l'elemento <tagsDecl> , allora esso deve contenere un elemento <tagUsage> per ogni elemento marcato nel testo associato.

L'elemento <refsDecl> va usato per documentare il funzionamento di un eventuale schema di riferimento standard introdotto nella codifica. Nella sua forma più semplice consiste di una descrizione in prosa.

Esempio:>
<refsDecl> <p>L'attributo N di ogni DIV1 e DIV2 contiene il riferimento canonico per ogni divisione nella forma XX.YYY dove XX è il numero del libro in numeri romani e YYY è la sezione in numeri arabi. </refsDecl>
L'elemento <classDecl> raggruppa le definizioni, o le fonti, di ogni schema di classificazione semantica usata per categorizzare il testo altrove nell'Header. Almeno uno di questi schemi deve essere fornito, mediante i seguenti elementi:
<taxonomy>
definisce la tipologia usata per classificare testi, sia implicitamente, attraverso una citazione bibliografica, sia esplicitamente, con una tassonomia strutturata.
<bibl>
contiene una citazione bibliografica non strutturata le cui componenti possono o meno essere etichettate esplicitamente.
<category>
contiene una singola categoria descrittiva, eventualmente inserita all'interno di una categoria di livello superiore, in una tassonomia definita dall'utente.
<catDesc>
descrive una data categoria nell'ambito di una tassonomia o di una tipologia testuale, sotto forma di una breve descrizione in prosa.
Nel più semplice dei casi, la tassonomia può essere definita da un riferimento bibliografico, come nel seguente esempio:
<classDecl> <taxonomy id="CDD"><bibl>Classificazione Decimale Dewey</bibl></taxonomy> <taxonomy id="CGB"><bibl>Classificazione generi BibIt</bibl></taxonomy> </classDecl>
Altrimenti, o in aggiunta, il codificatore può definire uno speciale schema di classificazione mirata, come nel seguente esempio:
<taxonomy id="B"> <bibl>Brown Corpus</bibl> <category id="B.A"><catDesc>Servizio di stampa <category id="B.A1"><catDesc>Quotidiano</category> <category id="B.A2"><catDesc>Settimanale</category> <category id="B.A3"><catDesc>Nazionale</category> <category id="B.A4"><catDesc>Provinciale</category> <category id="B.A5"><catDesc>Politico</category> <category id="B.A6"><catDesc>Sportivo</category> ... <category id="B.D"><catDesc>Religione <category id="B.D1"><catDesc>Libri</category> <category id="B.D2"><catDesc>Periodici e opuscoli</category> </category> ... </taxonomy>

Il collegamento tra un testo particolare e una categoria all'interno di tale tassonomia viene realizzato mediante l'elemento <catRef> , inserito nell'elemento <textClass> , descritto più avanti.

La descrizione del profilo

L'elemento <profileDesc> permette di registrare, in un quadro unico, una serie di meta-informazioni che caratterizzano, sotto vari aspetti descrittivi, un testo. Esso ha tre componenti opzionali:
<creation>
contiene informazioni relative alla creazione di un testo.
<langUsage>
descrive le lingue, sottolingue, registri, dialetti, etc., rappresentati all'interno di un testo.
<textClass>
contiene informazioni che descrivono la natura o i temi di un testo, in termini di uno schema di classificazione standard, di un thesaurus, etc.
Ad esempio:
<creation> <date value="2004:11">Novembre 2004</date <name type="luogo">Roma, Italia</name </creation>
L'elemento <textClass> classifica un testo in base allo schema o agli schemi definiti nell'elemento <classDecl> , e contiene uno, o più, dei seguenti elementi:
<keywords>
contiene una lista di parole chiave o di espressioni che identificano il tema o la natura di un testo. Tra gli attributi:
scheme
identifica il vocabolario controllato all'interno del quale è definito l'insieme di parole chiave.
<classCode>
contiene il codice di classificazione usato per il testo in un sistema di classificazione standard. Tra gli attributi:
scheme
identifica il sistema di classificazione o la tassonomia in uso.
<catRef>
specifica una, o più categorie definite nell'ambito di una data tassonomia o tipologia di testi. Tra gli attributi:
target
identifica le categorie in questione.
L'elemento <keywords> contiene una lista di parole chiave o espressioni che identificano il tema o la natura del testo. L'attributo scheme le collega al sistema di classificazione definito in <taxonomy> .
<textClass> <keywords scheme="CDD"> <term>858.6 - MISCELLANEA ITALIANA. 1748-1814</term> </keywords> <keywords scheme="CGB"> <term>Letteratura teatrale</term> </keywords> </textClass>

La descrizione delle revisioni

L'elemento <revisionDesc> fornisce un diario dei cambiamenti in cui può essere registrato ogni modifica rilevante apportata al documento elettronico. L'elenco delle revisioni deve essere codificato come una sequenza di elementi <change> ognuno dei quali contiene:
<date>
contiene una data in qualunque formato.
<respStmt>
fornisce una dichiarazione di responsabilità relativa al responsabile del contenuto intellettuale di un testo, un'edizione, una registrazione, una collana, se gli elementi specifici per autori, curatori, etc., non sono sufficienti o non sono adatti.
<item>
contiene un componente di una lista.
Ad esempio:
<revisionDesc> <change> <date>Data sconosciuta anteriore al 2000</date> <respStmt> <name>LIZ</name> </respStmt> <item>Digitalizzazione</item> </change> <change> <date>Data sconosciuta anteriore al 2000</date> <respStmt> <name>LIZ</name> </respStmt> <item>Correzione linguistica</item> </change> <change> <date>11/01/2004</date> <respStmt> <name>Marta Zanazzi</name> <name>BIBIT</name> </respStmt> <item>Codifica XML - Codifica con software</item> </change> <change> <date>26/01/2004</date> <respStmt> <name>Elena Pierazzo</name> <name>BIBIT</name> </respStmt> <item>Validazione</item> </change> </revisionDesc>

Appendix A: Lista degli elementi descritti

Appendix A.1: Gli attributi globali

Tutti gli elementi che si trovano nella Document Type Definition della TEI Lite hanno i seguenti attributi globali:
ana
collega un elemento alla sua interpretazione.
corresp
collega un elemento con uno o più elementi corrispondenti.
id
identificatore unico dell'elemento; deve iniziare con una lettera, può contenere lettere, numeri, linee e punti.
lang
lingua del testo contenuto nell'elemento; se non specificato, si ritiene che la lingua sia la stessa del contesto circostante.
n
nome o numero dell'elemento; può essere qualsiasi stringa di caratteri. Spesso viene usato per la registrazione dei sistemi di riferimento tradizionali di un testo.
next
collega in un aggregato un elemento al seguente elemento.
prev
collega in un aggregato un elemento al precedente elemento.
rend
realizzazione fisica dell'elemento nel testo: italico, roman, blocco, etc. Il valore può essere costituito da qualsiasi stringa di caratteri.

Appendix A.2: Elementi nella TEI Lite

La seguente lista elenca tutti gli elementi definiti nella DTD della TEI Lite, associando a ciascuno di essi una breve descrizione:
<abbr>
contiene un'abbreviazione di qualsiasi genere; l'espansione può essere specificata nell'attributo expan.
<add>
contiene lettere, parole o espressioni inserite nel testo da un autore, copista, commentatore o correttore.
<address>
contiene un indirizzo postale o di altro tipo, per esempio di un individuo, di un'organizzazione, di un editore.
<addrLine>
contiene una riga di un indirizzo postale o d'altro genere.
<anchor>
specifica una posizione o un luogo all'interno di un documento affinché possa essere 'puntato'.
<argument>
una lista formale o una descrizione in prosa dei temi trattati in una sezione del testo.
<author>
in un riferimento bibliografico contiene il nome dell'autore/i, personale o collettivo, di un'opera; costituisce la dichiarazione di responsabilità primaria di ogni unità bibliografica.
<authority>
fornisce il nome di una persona o di un'organizzazione responsabile della messa a disposizione di un file elettronico, quando non coincidano con l'editore o il distributore.
<availability>
fornisce informazioni sulla disponibilità di un testo, per esempio su qualsiasi restrizione che si applica alla sua utilizzazione o distribuzione, il suo statuto in merito al copyright, etc.
<back>
contiene qualsiasi annesso o appendice che segua la parte principale di un testo.
<bibl>
contiene una voce bibliografica non strutturata rigorosamente le cui componenti possono, o meno, essere esplicitamente marcate.
<biblFull>
contiene un riferimento bibliografico rigorosamente strutturato, che può contenere tutti gli elementi definiti nella TEI per la descrizione di un file.
<biblScope>
definisce l'estensione di un riferimento bibliografico, per esempio mediante una lista di numeri di pagina, o il titolo di una parte di un'opera più ampia.
<body>
contiene l'intero corpo di un singolo testo unitario, con l'esclusione di ogni elemento dell'avantesto e degli annessi.
<byline>
contiene la dichiarazione di responsabilità primaria di un'opera, che si trova sul suo frontespizio oppure all'inizio o alla fine dell'opera.
<catDesc>
descrive una data categoria nell'ambito di una tassonomia o di una tipologia testuale, sotto forma di una breve descrizione in prosa.
<category>
contiene una singola categoria descrittiva, eventualmente inserita all'interno di una categoria di livello superiore, in una tassonomia definita dall'utente.
<catRef>
specifica una, o più categorie definite nell'ambito di una data tassonomia o tipologia di testi.
<cell>
contiene una casella di una tabella.
<cit>
una citazione da qualche altro documento, insieme ad un riferimento bibliografico alla sua fonte.
<classCode>
contiene il codice di classificazione usato per il testo in un sistema di classificazione standard, che si identifica con l'attributo scheme.
<classDecl>
contiene una o più tassonomie che definiscono l'insieme dei codici di classificazione impiegati nel testo.
<closer>
raggruppa insieme date, firme, saluti ed espressioni simili che appaiono come un gruppo preliminare alla fine di una sezione, specialmente se si tratta di una lettera.
<code>
contiene un breve frammento di codice, in qualche linguaggio formale (spesso un linguaggio di programmazione).
<corr>
contiene la forma corretta di un passaggio evidentemente erroneo nel testo.
<creation>
contiene informazioni relative alla creazione di un testo.
<date>
contiene una data in qualsiasi formato, il cui valore normalizzato e dato nell'attributo value.
<dateline>
contiene una breve descrizione del luogo, data, periodo, etc. di produzione di una lettera, fatto di cronaca o altre opere, messa all'inizio o alla fine di questi, a mo' di titolo o di chiusura.
<del>
contiene una lettera, parola o passaggio cancellati, marcati come cancellati, o altrimenti indicati come superflui o spuri, nella copia originale da parte di un autore, scriba, commentatore o correttore.
<distributor>
fornisce il nome di una persona o di un'organizzazione responsabile della distribuzione di un documento.
<div>
contiene una sezione dell'avantesto, del corpo o degli annessi di un testo.
<div1> ... <div7>
contiene una sezione (di primo, secondo, ..., settimo livello) dell'avantesto, del corpo o degli annessi di un testo.
<divGen>
indica la collocazione di una sezione testuale generata automaticamente da un elaboratore di testo; l'attributo type specifica se si tratta di un indice, sommario o altro.
<docAuthor>
contiene il nome dell'autore del documento, così come è dato sul frontespizio (spesso, ma non sempre, inserito in un elemento <byline> ).
<docDate>
contiene la data di edizione del documento, come indicata (abitualmente) sul frontespizio.
<docEdition>
contiene la dichiarazione dell'edizione, così come è presentata sul frontespizio di un documento.
<docImprint>
contiene la dichiarazione delle note tipografiche (luogo e data di pubblicazione, nome dell'editore), così come appare (abitualmente) alla base del frontespizio.
<docTitle>
contiene il titolo di un documento, tutti i suoi elementi costitutivi, come appaiono sul frontespizio; deve essere diviso in elementi <titlePar> .
<edition>
descrive le particolarità di un'edizione di un testo.
<editionStmt>
raggruppa le informazioni relative ad una data edizione del testo.
<editor>
dichiarazione di responsabilità secondaria per un'unità bibliografica, per esempio il nome di uno o più individui, istituzioni od organizzazioni che figurano come editore, compilatore, traduttore, etc.
<editorialDecl>
fornisce dettagli su principi e pratiche editoriali seguite nella codifica di un testo.
<eg>
contiene un singolo breve esempio di qualche argomento tecnico di cui si discute, per esempio un frammento di codice o un esempio di codifica XML.
<emph>
codifica parole o espressioni che sono messe in risalto o enfatizzate per un effetto linguistico o retorico.
<encodingDesc>
documenta le relazioni tra un testo elettronico e la fonte, o le fonti, da cui è stato tratto.
<epigraph>
contiene una citazione, anonima o attribuita, che appare all'inizio di una sezione o capitolo, o sul frontespizio.
<extent>
descrive le dimensioni approssimative del testo elettronico, memorizzato su un dato supporto, espresse in una qualsiasi unità di misura adeguata.
<figure>
indica il luogo in cui un elemento grafico deve essere inserito in un documento; l'attributo entity può essere usato per indicare un'entità XML che contiene l'immagine stessa (in qualche notazione non XML); si possono usare dei paragrafi all'interno dell'elemento <figure> per trascrivere le didascalie.
<fileDesc>
contiene una descrizione bibliografica completa di un file digitale.
<foreign>
identifica una parola o un'espressione appartenente a una lingua diversa da quella del testo circostante.
<formula>
contiene una formula matematica o chimica, opzionalmente rappresentata in qualche notazione non XML; l'attributo notation è usato per indicare la notazione non-XML usata per trascrivere la formula.
<front>
contiene qualsiasi elemento (testate, frontespizio, prefazioni, dediche, etc.) che si trovi prima dell'inizio del testo vero e proprio.
<funder>
specifica il nome di un individuo, istituzione od organizzazione che ha finanziato la realizzazione del progetto o del testo.
<gap>
indica un punto dove si è omesso del testo in una trascrizione, sia per ragioni editoriali descritte nella testata TEI (nella sezione sui criteri di selezione), sia perché il materiale è illeggibile, o impercettibile. Tra gli attributi:
<gi>
contiene uno speciale tipo di identificatore: un identificatore generico XML, o il nome di un elemento.
<gloss>
codifica una parola o espressione che fornisce una glossa o definizione per qualche altra parola o espressione.
<group>
raggruppa un insieme di testi unitari o gruppi di testi.
<head>
contiene ogni tipo di intitolazione, per esempio, il titolo di una sezione, oppure l'intestazione di una lista o di un glossario.
<hi>
codifica una parola o frase in quanto graficamente distinta dal testo circostante, senza che si faccia alcuna dichiarazione sulle ragioni dell'evidenziazione.
<ident>
contiene un identificatore di qualche tipo, per esempio il nome di una variabile o il nome di un elemento, o attributo, XML.
<idno>
fornisce ogni numero, standardizzato o meno, usato per identificare un'unità bibliografica; l'attributo type identifica lo schema o lo standard.
<imprint>
raggruppa informazioni che riguardano la pubblicazione o la distribuzione di un'unità bibliografica.
<index>
codifica un luogo del testo che deve essere indicizzato per qualche scopo; degli attributi sono usati per dare la forma principale, e le forme dal secondo fino al quarto livello che devono essere inserite nell'indice indicato.
<interp>
fornisce un'annotazione interpretativa che può essere collegata a parti di testo.
<interpGrp>
raggruppa un insieme di elementi <interp> .
<item>
contiene un componente di una lista.
<keywords>
contiene una lista di parole chiave o di espressioni che identificano il tema o la natura di un testo; se le parole chiave vengono da un vocabolario controllato, questo può essere identificato dall'attributo scheme.
<kw>
contiene una parola chiave in un qualche linguaggio formale.
<l>
contiene una singola linea, anche incompleta, di un verso.
<label>
contiene l'etichetta associata ad un elemento in una lista; nei glossari, codifica il termine che si sta definendo.
<langUsage>
descrive le lingue, sottolingue, registri, dialetti, etc., rappresentati all'interno di un testo.
<lb>
segnala l'inizio di una nuova linea (tipografica) in una certa edizione o versione di un testo.
<lg>
contiene un gruppo di versi che costituiscono un'unità formale, per esempio una stanza, un refrain, un paragrafo in versi, etc.
<list>
contiene qualunque sequenza di voci organizzate come una lista, numerata, puntata, o di altro tipo.
<listBibl>
contiene una lista di citazioni bibliografiche di qualsiasi tipo.
<mentioned>
codifica parole o frasi citate, o attribuite a responsabilità diverse da quelle dell’autore
<milestone>
segnala il confine tra le sezioni di un testo, indicato dai cambiamenti in un sistema di riferimento standard; tra gli attributi ed (edizione), unit (pagina, etc.) e n (valore).
<name>
contiene un nome proprio o un'espressione sostantivale; gli attributi possono indicare il suo tipo, dare una forma normalizzata o associarlo con un individuo specifico o con un oggetto per mezzo di un identificatore unico.
<note>
contiene una nota o un'annotazione, con attributi per indicare il tipo, la posizione e la fonte della nota.
<notesStmt>
raggruppa tutte le note che forniscono informazioni supplementari su un testo oltre a quelle registrate in altre parti della descrizione bibliografica.
<num>
contiene un numero, scritto in qualsiasi forma, il cui valore normalizzato si trova nell'attributo value.
<opener>
raggruppa insieme date, firme, saluti ed espressioni simili che appaiono come un gruppo preliminare all'inizio di una sezione, specialmente se si tratta di una lettera.
<orig>
contiene la forma originale di una lezione della quale è data una forma regolarizzata in un valore di un attributo.
<p>
codifica un paragrafo in prosa.
<pb>
codifica il confine tra una pagina di un testo e la seguente, in un sistema di riferimento standard.
<principal>
fornisce il nome del principale ricercatore responsabile della creazione di un testo elettronico.
<profileDesc>
contiene una descrizione dettagliata degli aspetti non bibliografici di un testo, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e il loro ambiente.
<projectDesc>
descrive dettagliatamente il fine o lo scopo per cui un testo elettronico è stato codificato, insieme a qualunque altra informazione rilevante che riguarda il procedimento con cui il file è stato prodotto.
<ptr>
un puntatore ad un'altra posizione nel documento corrente, in termini di uno o più elementi identificabili.
<publicationStmt>
raggruppa le informazioni relative alla pubblicazione e distribuzione di un testo, elettronico o meno.
<publisher>
fornisce il nome dell'organizzazione responsabile per la pubblicazione o distribuzione di un'informazione bibliografica.
<pubPlace>
contiene il nome del luogo in cui è stata pubblicata un'unità bibliografica.
<q>
contiene una citazione o un brano testuale simile ad una citazione.
<ref>
un riferimento a un'altra posizione nel documento corrente, in termini di uno o più elementi identificabili, eventualmente caratterizzato da testo supplementare o da un commento.
<refsDecl>
specifica il modo in cui sono stati costruiti i sistemi di riferimento canonici del testo.
<reg>
contiene una lezione che è stata regolarizzata o normalizzata in qualche modo; la variante originale può essere data nell'attributo orig.
<rendition>
fornisce informazioni sulla interpretazione scelta per uno o più elementi.
<resp>
contiene un'espressione che descrive per esteso la natura della responsabilità intellettuale di una persona.
<respStmt>
fornisce una dichiarazione di responsabilità relativa al responsabile del contenuto intellettuale di un testo, un'edizione, una registrazione, una collana, se gli elementi specifici per autori, curatori, etc., non sono sufficienti o non sono adatti.
<revisionDesc>
riassume la storia delle revisioni di un documento elettronico.
<row>
contiene una riga di una tabella.
<rs>
contiene un nome o un'espressione referenziale generica; gli attributi possono indicarne il tipo, dare una forma normalizzata, o associarlo con uno specifico individuo od oggetto per mezzo di un identificatore unico.
<s>
identifica una s-unità all'interno di un documento, al fine di costituire uno schema di riferimento canonico che si riferisca all'intero testo.
<salute>
contiene una formula o un saluto di apertura in una prefazione, un'epistola dedicatoria o altre sezioni di un testo, o una formula di saluto alla fine di una lettera, prefazione, etc.
<samplingDecl>
contiene una descrizione in prosa dei principi e dei metodi usati nella selezione dei testi per la creazione di un corpus o d'una collezione.
<seg>
identifica un frammento o un segmento di testo all'interno di un documento affinché possa essere 'puntato'; l'attributo type categorizza il segmento.
<series>
contiene informazioni sulla collana in cui sono apparsi un libro o un'altra unità bibliografica.
<seriesStmt>
raggruppa informazioni sulla collana, se esiste, alla quale appartiene la pubblicazione.
<sic>
contiene un testo riprodotto anche se evidentemente scorretto o impreciso.
<signed>
contiene la formula di commiato apposta alla fine di una prefazione, di un'epistola dedicatoria, o di altre divisioni di un testo.
<soCalled>
contiene una parola o espressione per cui l'autore o il narratore non si assume la responsabilità, segnalate ad esempio tramite l'uso di virgolette o corsivi.
<sourceDesc>
fornisce una descrizione bibliografica del testo (o dei testi) da cui è stato generato o è derivato un testo elettronico.
<sp>
contiene una singola battuta in un testo drammatico, o un brano presentato come tale (cioè per la recitazione) in un testo in prosa o in versi, con l'attributo who per identificare il parlante.
<speaker>
contiene una forma particolare di intestazione o etichetta, che fornisce i nomi di uno o più parlanti in un testo o frammento drammatico.
<sponsor>
specifica il nome dell'organizzazione o istituzione che sponsorizza un progetto di ricerca.
<stage>
contiene qualsiasi tipo di didascalie e direttive di scena all'interno di un testo o di un frammento di testo drammatico.
<table>
contiene parti di testo presentate in forma di tabella, in righe e colonne.
<tagsDecl>
fornisce informazioni dettagliate relative ai marcatori applicati a un documento SGML.
<tagUsage>
fornisce informazioni sull'uso di uno specifico elemento all'interno del più esterno elemento <text> di un documento conforme TEI.
<taxonomy>
definisce la tipologia usata per classificare testi, sia implicitamente, attraverso una citazione bibliografica, sia esplicitamente, con una tassonomia strutturata.
<term>
contiene una o più parole o designazioni simboliche che vengono considerate come un termine tecnico..
<textClass>
contiene informazioni che descrivono la natura o i temi di un testo, in termini di uno schema di classificazione standard, di un thesaurus, etc.
<time>
contiene un'espressione che definisce un orario in qualche formato, il cui valore è normalizzato nell'attributo value.
<title>
contiene il titolo di un'opera, sia essa articolo, libro, giornale, o collana ogni titolo alternativo o sottotitolo.
<titlePage>
contiene la pagina di frontespizio di un testo, che appare all'interno dell'avantesto o tra gli annessi.
<titlePart>
contiene una suddivisione del titolo di un'opera, come appare sul frontespizio; va inoltre usato per frammenti senza collocazione fissa del frontespizio che non fanno parte del titolo, attribuzioni di paternità, etc.
<titleStmt>
raggruppa le informazioni sul titolo di un'opera e sui responsabili del suo contenuto intellettuale.
<trailer>
contiene una formula di chiusura o un elemento a piè di pagina che compare alla fine di una divisione di un testo.
<unclear>
contiene una parola, una frase o un brano che non può essere trascritto con certezza perché è illeggibile o impercettibile nell'originale.
<xptr>
definisce un puntatore a un'altra posizione nel documento corrente o in un documento esterno.
<xref>
definisce un puntatore ad un'altra posizione nel documento corrente o in un documento esterno, eventualmente caratterizzato da un testo supplementare o da un commento.
Notes
1.
La prima versione della traduzione, risalente al 1997, è dovuta al lavoro di Guendalina Demontis, Massimo Guerrieri, Andrea Loreti, sotto il coordinamento di Giuseppe Gigliozzi, e con la revisione finale di Fabio Ciotti . L'edizione che state leggendo è stata riveduta e corretta dall'autore di questa nota, che si assume tutte le responsabilità per la traduzione dei termini tecnici e speciali, con la collaborazione preziosa di Simone Albonico.
2.
Altre notazioni possono essere comunque usate, a condizione che un'appropriata dichiarazione NOTATION venga aggiunta alla DTD.
3.
L'analisi qui riprodotta è presa da Willard McCarty e Burton Wright, An Analytical Onomasticon to the Metamorphoses of Ovid (Princeton, Princeton University Press). L'esempio è stato leggermente semplificato.