TEI Lite:
Una introducción al Text
Encoding for Interchange
Lou Burnard
C. M.
Sperberg-McQueen Documento no: TEI U 5 Junio de 1995
Traducido por
Manuel
Sánchez Quero
Biblioteca Virtual
Miguel de Cervantes Universidad de Alicante España
Septiembre de 2001
Existe una versión en SGML de
este documento para bajar en
http://www.hcu.ox.ac.uk/TEI/Lite/teiu5.tei.
También existe una versión en HTML de este documento dividida en
varios archivos (para una consulta más rápida) en
http://www.hcu.ox.ac.uk/TEI/Lite/teiu5.split.html.
Índice
Este
documento constituye una introducción a las recomendaciones del Text
Encoding Initiative (TEI), ya que describe un subconjunto controlable del
esquema de etiquetado completo del TEI. El esquema documentado aquí
puede emplearse para etiquetar una amplia variedad de características
textuales comunes, de tal modo que maximice la utilidad de las trascripciones
electrónicas y que facilite su intercambio entre estudiosos que empleen
diferentes sistemas informáticos. También es totalmente
compatible con el esquema del TEI completo tal y como está definido en
el TEI documento P3, Guidelines for Electronic Text Encoding and
Interchange, publicado en Chicago y Oxford en mayo de 1994. Se pueden
encontrar copias de esta versión de este texto a través de la
World Wide Web en
http://www-tei.uic.edu/orgs/tei/intros/teiu5.tei y
ftp://info.ox.ac.uk/pub/ota/TEI/doc/teiu5.tei, así
como en otros sitios. El documento también está disponible en
formato HTML en
http://www-tei.uic.edu/orgs/tei/intros/teiu5.html y
http://info.ox.ac.uk/~archive/teilite/teiu5.html. Se pueden
encontrar copias de la definición del tipo de documento en SGML para el
conjunto de etiquetas descrito aquí en las mismas direcciones, bajo el
archivo llamado teilite.dtd:
http://www-tei.uic.edu/orgs/tei/p3/dtd/teilite.dtd,
ftp://ftp-tei.uic.edu/pub/tei/lite/teilite.dtd y
ftp://info.ox.ac.uk/pub/ota/TEI/dtd/teilite.dtd.
1
Introducción
Las Normas
del Text Encoding Initiative (TEI) están dirigidas a cualquier persona
que quiera intercambiar información almacenada en un formato
electrónico. En ellas se enfatiza el intercambio de información
textual, pero también se hace referencia a otras formas de
información como son las imágenes y el sonido. Las Normas son del
mismo modo aplicables a la creación de nuevos recursos y al intercambio
de los ya existentes.
Las Normas
proporcionan un medio para hacer explícitos ciertos rasgos de un texto
de tal modo que faciliten el procesamiento de dicho texto por programas
informáticos ejecutados desde diferentes máquinas. Esto es lo que
se denomina marcado o codificado. Cualquier
representación textual en un ordenador utiliza algún tipo de
marcado; el TEI aparició, en parte, debido a la gran variedad de
esquemas de codificación mutuamente incomprensibles que abundan
actualmente en los ámbitos de estudio, y en parte, debido a la creciente
variedad de usos que están siendo identificados para los textos en
formato electrónico.
Las Normas
TEI usan el Standard Generalized Markup Language (SGML) para definir
su esquema de codificación. SGML es un estándar internacional
(ISO 8879), usado cada vez más por todas las industrias de procesamiento
de información, que posibilita una definición formal de un
esquema de codificación, en función de elementos y
atributos, y reglas que controlan su aparición en un texto. El
uso que hace el TEI del SGML es ambicioso en su complejidad y generalidad, pero
fundamentalmente no es diferente del de cualquier otro esquema de marcado en
SGML. Por lo tanto, cualquier programa preparado para SGML puede procesar los
textos que cumplan el TEI.
El TEI
está patrocinado por la Association for Computers and the
Humanities, la Association for Computational Linguistics, y la
Association for Literary and Linguistic Computing. La
financiación ha sido facilitada, en parte, por el U.S.
National Endowment for the Humanities, Directorate General XIII of the
Commission of the European Communities, la Fundación Andrew W.
Mellon, y el Social Science and Humanities Research Council of Canada.
Sus Normas fueron publicadas en mayo de 1994, tras seis años de
desarrollo donde participaron cientos de estudiosos de diferentes disciplinas
académicas de todo el mundo.
Al
comienzo de este trabajo, los objetivos generales del TEI fueron definidos por
la declaración de clausura de una conferencia de organización que
tuvo lugar en Vassar College, N.Y., en noviembre de 1987; estos principios
'Poughkeepsie' fueron más tarde elaborados en series de documentos de
diseño. Las Normas, según estos documentos, deben:
- ser suficientes para representar los rasgos textuales
necesarios para la investigación;
- ser sencillas, claras y concretas;
- ser fáciles para los investigadores para que
las usen sin ningún programa específico;
- permitir la definición rigurosa y el
procesamiento eficaz de los textos;
- prevenir las extensiones definidas por los usuarios;
- ajustarse a los estándares existentes y en
desarrollo.
El mundo
de estudio es amplio y diverso. Para que las Normas sean aceptadas era
importante asegurar que:
- el núcleo común de los rasgos textuales
fuera fácilmente compartido;
- otros rasgos específicos fueran
añadidos (o eliminados) fácilmente a un texto;
- fueran posibles múltiples codificaciones
semejantes de un mismo rasgo;
- la riqueza del marcado debía ser definida por
el usuario, con un mínimo nivel de exigencia;
- una adecuada documentación del texto y de su
codificación debía ser suministrada.
Este
documento describe una manejable selección del extenso conjunto de
elementos SGML y recomendaciones resultantes de aquellos objetivos de
diseño. Esta selección es el llamado TEI Lite.
Al
seleccionar de los varios cientos de elementos SGML definidos por el TEI
completo, hemos tratado de identificar un 'conjunto inicial' que recoja los
elementos que casi cualquier usuario debería conocer. La experiencia al
trabajar con el TEI Lite será de gran valor para entender la DTD del TEI
completo y para conocer qué partes opcionales de la DTD completa son
necesarias para trabajar con tipos de textos específicos.
Nuestros
objetivos al definir este subconjunto se puede resumir del siguiente modo:
- debe incluir la mayoría de las etiquetas
principales del TEI, ya que estas contienen elementos importantes para todos
los tipos de textos y todos los tipos de trabajo de procesamiento de los
textos;
- debe poder manejar correctamente una variedad de
textos bastante amplia, a un nivel de detalle que se dé en la
práctica real (tal y como ocurre en, por ejemplo, las bases del Oxford
Text Archive);
- debe ser útil para la producción de
nuevos documentos así como para etiquetar los ya existentes;
- debe ser utilizable por la mayoría de los
programas de SGML ya existentes;
- debe poder ser obtenido de la completa TEI DTD
empleando los mecanismos de extensión descritos en las Normas del
TEI;
- debe ser lo más reducido y sencillo posible
siempre y cuando sea coherente con los otros objetivos.
El lector
puede juzgar por sí mismo nuestro éxito en la consecución
de estos objetivos. A la hora de escribir, estamos
seguros de haberlo conseguido, al menos en parte, por su uso en la
práctica de etiquetado de textos reales. El Oxford Text Archive usa el
TEI Lite cuando traduce sus textos de su esquema de marcado original a SGML; el
Electronic Text Centers de la Universidad de Virginia y la Universidad de
Michigan han usado el TEI Lite para marcar sus textos. Y la propia Text
Encoding Initiative utiliza el TEI Lite, para su documentación
técnica --- incluyendo este documento.
Aunque
hemos tratado de hacer este documento independiente, como un tutorial, el
lector debe ser consciente de que este no cubre todos los detalles del esquema
de marcado del TEI. Todos los elementos descritos aquí están
totalmente documentados en las Normas del TEI, que deben ser consultadas para
mayor información sobre los aspectos tratados, y no tratados,
aquí. Se presupone un conocimiento básico de SGML.
2 Un
pequeño ejemplo
Empezaremos con un pequeño
ejemplo, que trata de mostrar lo que ocurre cuando un fragmento de prosa es
escrito en un ordenador por alguien con poco conocimiento del propósito
del marcado o del potencial de los textos electrónicos. En un mundo
ideal, este resultado debería conseguirse con un apropiado
escáner óptico. Trata de ser fiel al aspecto del texto impreso,
conservando los fines de línea, insertando espacios en blanco para
representar el formato de los títulos originales, de los finales de
página, etc. En el caso de caracteres que no están en el teclado
(como las letras acentuadas, la ñ o la raya de los
diálogos), trata de imitar su forma.
Capi'tulo XVIII
Veamos ahora lo que paso' aquella noche. Jenara tomo' asiento
en el despacho del sen-or D. Felici'simo, y Pipao'n, acerca'ndose a este,
le hablo' un poco al oi'do para contarle lo que a la dama le pasaba. A
cada dos palabras que oi'a, D. Felici'simo articulaba una especie de chi-
llido, un ji ji, que ma's teni'a de suspiro que de interjeccio'n y que al
mismo tiempo expresaba hipo y burla.
--Bueno, bueno --murmuro' el anciano moviendo la cabeza en adema'n
de conciliacio'n--.
178
En mi casa no sera' molestada; yo le respondo de que no sera' molestada,
ji ji.
--Gracias --dijo la dama secamente tratando de darse aire con
los restos de su abanico.
--El Sr. D. Miguel de Baraona y yo fuimos muy amigos --an-adio' Car-
nicero, volviendo a Jenara su faz plana, fri'a, sin expresio'n de senti-
miento alguno--, pero muy amigos. Cuando aquellas cuestiones de la Santa
Iglesia Colegial de Vitoria con los Cano'nigos cuartos de frutos de
Calahorra, vino aqui' don Jose' Marque's, cano'nigo entero, D. Vicente Mora-
les, racionero medio y D. Andre's de Baraona, cano'nigo cuarto de opta-
cio'n, hermano de su abuelo de usted que tambie'n vino. Yo le consegui' el
arcedianato de Berberiega para su primo. ¡Cua'ntas tardes pasamos juntos
en este despacho hablando de sermones y Toros! Era en los tiempos de Pedro
Romero y dicho se esta' que habi'a materia para dos buenos aficionados como
nosotros. Si el sen-or de Baraona viviera se acordari'a de cuando vimos la
cogida de Pepe-Hillo y la ce'lebre cornada de Jose' Ca'ndido, motivada por
haberse escupido el toro, con lo que se atolondro' Jose' y quiso matarlo fue-
ra de la jurisdiccio'n, recibiendo un encontronazo...
Esta
transcripción tiene una serie de deficiencias:
- los números de página y los
títulos están entremezclados con el texto de tal modo que hace
muy difícil que un programa informático pueda distinguirlos;
- la conservación de los guiones en la copia del
texto significa que los programas de búsqueda más sencillos no
encontrarán las palabras partidas;
- las letras acentuadas, la ñ y la raya
han sido insertadas específicamente tecleando convenciones que no siguen
ningún patrón estándar y no podrán ser procesadas
correctamente a no ser que el transcriptor recuerde mencionarlas en la
documentación;
- las divisiones entre párrafos se marcan
únicamente mediante un espacio en blanco y se han introducido retornos
manuales al final de cada línea. Por lo tanto, si el tamaño de la
letra usada para imprimir el texto cambia, el reformateo será
problemático.
Ahora
mostramos el mismo fragmento tal y como debería estar etiquetado
según las Normas del TEI. Como veremos, hay muchas niveles de
profundidad del etiquetado, pero como mínimo, el TEI nos permite
representar las diferentes distinciones:
- Las divisiones entre párrafos están
ahora marcadas explícitamente.
- Se usan referencias a entidades para las letras
acentuadas, la ñ y para la raya.
- Las divisiones entre páginas se han marcado
sólo con un elemento vacío: <pb>.
- Para simplificar la búsqueda y el
procesamiento, no se han mantenido las del original y las palabras partidas a
final de línea se han juntado sin ningún comentario previo. Si
fuera interesante mantener las líneas del original, como por ejemplo en
el caso de una impresión importante, podría apuntarse
fácilmente, aunque aquí no es el caso.
- Para que la lectura y corrección sea
más sencilla, se ha insertado una línea al principio de cada
párrafo, pero la tabulación se ha quitado.
<pb n="177">
<div1 type=capítulo n='XVIII'>
<p>Veamos ahora lo que pasó aquella noche. Jenara tomó
asiento en el despacho del señor D. Felicísimo, y
Pipaón, acercándose a este, le habló un poco al
oído para contarle lo que a la dama le pasaba. A cada dos
palabras que oía, D. Felicísimo articulaba una especie
de chillido, un ji ji, que más tenía de suspiro que de
interjección y que al mismo tiempo expresaba hipo y burla.</p>
<p><q>‐Bueno, bueno</q> ‐murmuró el anciano moviendo
la cabeza en ademán de conciliación‐. <pb n="178">
<q>En mi casa no será molestada; yo le respondo de que no
será molestada, ji ji.</q></p>
<p><q>‐Gracias </q>‐dijo la dama secamente tratando de darse
aire con los restos de su abanico.</p>
<p><q>‐El Sr. D. Miguel de Baraona y yo fuimos muy amigos
</q>‐añadió Carnicero, volviendo a Jenara su faz plana,
fría, sin expresión de sentimiento alguno‐, <q>pero
muy amigos. Cuando aquellas cuestiones de la Santa Iglesia Colegial de
Vitoria con los Canónigos cuartos de frutos de Calahorra, vino
aquí don José Marqués, canónigo entero, D.
Vicente Morales, racionero medio y D. Andrés de Baraona,
canónigo cuarto de optación, hermano de su abuelo de usted
que también vino. Yo le conseguí el arcedianato de Berberiega
para su primo. ¡Cuántas tardes pasamos juntos en este despacho
hablando de sermones y Toros! Era en los tiempos de Pedro Romero y dicho
se está que había materia para dos buenos aficionados como
nosotros. Si el señor de Baraona viviera se acordaría de
cuando vimos la cogida de Pepe-Hillo y la célebre cornada de
José Cándido, motivada por haberse escupido el toro, con
lo que se atolondró José y quiso matarlo fuera de la
jurisdicción, recibiendo un encontronazo...</q></p>
La
decisión de centrarnos en el texto de Pérez Galdós, en
lugar de en la impresión de este en esta edición en particular,
es una cuestión fundamental del etiquetado: la selección. Un
etiquetado explicita únicamente aquellos rasgos textuales importantes
para el etiquetador. No es difícil pensar en otros modos en que se
podría profundizar en el etiquetado de este pequeño fragmento.
Por ejemplo:
- se podrían añadir notas al pie que
glosen o comenten algún pasaje;
- se podrían añadir punteros que enlacen
unas partes con otras dentro de este texto;
- se podrían diferenciar los nombres propios del
resto del texto;
- se podría indicar antes del texto
información bibliográfica detallada sobre el origen y contexto
del texto;
- se podría añadir un análisis
lingüístico del fragmento separando sus frases, proposiciones,
palabras, etc., y asociando cada unidad con un código que indique su
categoría gramatical;
- se podría dividir el texto en unidades
narrativas o discursivas;
- se podría incluir en el etiquetado un
análisis sistemático o una interpretación del texto, con
un posible enlace complejo entre el texto y el análisis, o entre el
texto y una o más traducciones;
- se puden enlazar fragmentos del texto con
imágenes, etc.
El modo
recomendado por el TEI de llevar a cabo todo esto se describe a lo largo de
este documento. El esquema del TEI en su conjunto proporciona también
una gran variedad de posibilidades de las que citamos somos unas cuantas:
- análisis detallado de los componentes de los
nombres;
- metainformación detallada que proporcione
información a modo de tesauro sobre los orígenes y temas del
texto;
- información sobre la historia de las
variaciones de impresión o de manuscrito mostrada en una serie
particular de versiones del texto.
Consultar
las Normas completas para ver recomendaciones sobre estas y otras
posibilidades.
3 La estructura de
un texto TEI
Todos los
textos que cumplan el TEI contienen (a) un encabezado TEI (marcado con
el elemento <teiHeader>) y (b) la transcripción del
propio texto (marcado con el elemento <text>).
El
encabezado TEI provee información similar a la de la portada de un texto
impreso. Tiene hasta cuatro partes: una descripción bibliográfica
del texto electrónico, una descripción de cómo ha sido
etiquetado, una descripción no bibliográfica del texto (un
perfil del texto), y una revisión de su historia (su
creación). El encabezado está descrito más detalladamente
en la sección 20 La portada
electrónica.
Un texto
TEI puede ser individual (una única obra) o compuesto
(una colección de obras, como por ejemplo una antología). En
cualquier caso, el texto puede tener un front o back
opcional. En medio está el body, cuerpo de la obra, que, en el
caso de un texto compuesto, puede estar formado por groups, cada uno
conteniendo a su vez más grupos o textos.
Un texto
individual se etiquetará siguiendo una estructura genérica como
esta:
<TEI.2>
<teiHeader> [ Información del encabezado TEI ] </teiHeader>
<text>
<front> [ materia del front ... ] </front>
<body> [ cuerpo del texto ... ] </body>
<back> [ materia back ... ] </back>
</text>
</TEI.2>
Un texto
compuesto también tiene una materia previa (front) y final
(back) opcional. En medio aparecen uno o más grupos de textos,
cada uno con sus propios front y back opcionales. Un texto
compuesto se etiquetará usando una estructura genérica como
esta:
<TEI.2>
<teiHeader> [ información del encabezado del conjunto de textos] </teiHeader>
<text>
<front> [ materia del front del conjunto de textos] </front>
<group>
<text>
<front> [ materia del front del primer texto ] </front>
<body> [ materia del body del primer texto ] </body>
<back> [ materia del back del primer texto ] </back>
</text>
<text>
<front> [ materia del front del segundo texto ] </front>
<body> [ materia del body del segundo texto ] </body>
<back> [ materia del back del segundo texto ] </back>
</text>
[ aquí van los demás textos o grupos de textos ]
</group>
<back> [ materia del back del conjunto de textos ] </back>
</text>
</TEI.2>
También es posible definir
un conjunto de textos TEI, cada uno con su propio encabezado. Este tipo de
colección se llama corpus TEI, y toda esta puede tener un
encabezado:
<teiCorpus>
<teiHeader> [ información del encabezado del corpus ] </teiHeader>
<TEI.2>
<teiHeader> [ información del encabezado del primer texto ] </teiHeader>
<text> [primer texto del corpus] </text>
</TEI.2>
<TEI.2>
<teiHeader> [ información del encabezado del primer texto ] </teiHeader>
<text> [second texto del corpus ] </text>
</TEI.2>
</teiCorpus>
Sin
embargo, no es posible crear un conjunto de corpora, es decir, un a serie de
elementos <teiCorpus> combinados juntos y tratados como un
único objeto. Esta es una restricción de la actual versión
de las Normas TEI.
Más
adelante en este documento trataremos con más profundidad las
estructuras textuales simples. Mostraremos una pequeña lista con los
elementos del TEI más importantes y una breve
explicación o definición junto con los atributos
específicos de cada elemento también definidos. En la
mayoría de los casos, se dan tambi´ne pequeños
ejemplos.
4 Codificando el
cuerpo (body)
Como se ha
indicado arriba, un documento TEI sencillo está formado por los
siguientes elementos:
- <front>
- contiene los materiales previos al comienzo del texto
propiamente dicho: introducción, prólogos, dedicatorias, etc.
- <group>
- contiene un conjunto de textos individuales o grupos
de textos.
- <body>
- contiene todo el cuerpo de un texto individual,
exceptuando la materia del front y del back.
- <back>
- contiene los apéndices, etc., que siguen a la
parte principal de un texto.
Los
elementos específicos del front y del back
están descritos en la sección 19
Materia del Front y del Back. En esta sección veremos los elementos
empleados para marcar el body del texto.
4.1 Elementos de
división textual
El cuerpo
de un texto en prosa puede ser simplemente un conjunto de párrafos, o
estos pueden estar agrupados en capítulos, secciones, subsecciones, etc.
En el primer caso, cada párrafo está etiquetado con la etiqueta
<p>. En el segundo caso, el <body> puede estar
dividido o en diferentes elementos <div1>, o en elementos
<div>, y cada uno de estos subdivididos a su vez como se ve
más abajo:
- <p>
- indica los párrafo en prosa.
- <div>
- contiene una subdivisión del front,
body o back del texto.
- <div1>
- contiene una subdivisión de primer nivel del
front, body o back de un texto (es la mayor si no se
usa el <div0>, si se usara sería la segunda mayor).
Cuando hay
subdivisiones estructurales más pequeñas que el
<div1>, la <div1> puede dividirse en elementos
<div2>, los elementos <div2> en elementos
<div3> menores, etc., hasta el nivel de la
<div7>. Si fueran necesarias más de siete nivel de
divisiones estructurales, se debe modificar el conjunto de etiquetas del TEI
para que acepte <div8>, etc., o para usar los elementos
<div> sin numerar: un <div> puede subdividirse en
<div> más pequeños sin ningún límite
de anidamiento.
Todos
estos elementos de división tienen los mismos tres
atributos:
- type
- Indica el nombre convencional para esta
categoría de división textual. Su valor será normalmente
"Book", "Chapter", "Poem", etc. Otros posibles valores son "Group" para grupos
de poemas, etc., tratados como unidades sencillas sería "Sonnet",
"Speech" y "Song". Los valores insertados en el atributo type del
primer <div>, <div1>, <div2>,
etc., en un texto se supone que es aplicable a los siguientes
<div>, <div1>s, etc., dentro del mismo
<body>. Esto supone que sólo se debe indicar el valor en
el primer elemento de división de cada tipo, o donde este cambie.
- id
- Especifica un identificador único para la
división, que puede usarse para hacer referencias cruzadas o enlaces,
como se verá más adelante en la sección
8 Referencias cruzadas y enlaces . A menudo
es útil insertar un atributo id en las unidades estructurales
de nivel superior de un texto y obtener los valores ID de algún modo
automático, por ejemplo añadiendo un número de
sección a un pequeño código usado para el título de
la obra en cuestión, como se verá en los ejemplos de abajo.
- n
- El atributo n especifica un corto nombre o
número mnemotécnico para la división, que puede usarse
para identificarla en lugar del ID. Si existe un modo convencional de
referencia o abreviatura para las partes de una obra (como el modelo
'libro/capítulo/versículo' para las citas bíblicas), el
atributo n es el lugar para indicarlo.
Los
atributos id y n, de hecho, son tan útiles que
están en cualquier elemento de cualquier TEI DTD: son los llamados
atributos globales. Otros atributos globales definidor por el TEI Lite
se verán en la sección 8.3
Atributos de enlace.
El valor
de cada atributo id debe ser único dentro del documento. Un
modo sencillo de asegurarnos de que es así es hacer que refleje la
estructura jerárquica del documento. Por ejemplo, el libro Los
bandos de Castilla o El caballero del cisne: novela original
española de Ramón López Soler fue publicado en tres
tomos, cada uno divido en capítulos, mientras que algunos
capítulos están divididos en partes. Podríamos definir
valores para el id así:
<div1 id=BC1 n='I' type='tomo'>
<div2 id=BC101 n='I.1' type='capítulo'>
... </div2>
<div2 id=BC102 n='I.2' type='capítulo'>
... </div2>
...
<div2 id=BC110 n='I.10' type='capítulo'>
... </div2>
...
</div1>
<div1 id=BC2 n='II' type='tomo'>
...
</div1>
...
Se deben
usar esquemas de nomenclatura diferentes para los atributos id y
n: esto es útil cuando se usa un esquema de referencia
canónica que no tiene en cuenta la estructura de la obra. Por ejemplo,
en una novela divida en libros y cada uno de estos en capítulos, donde
los capítulos están numerados consecutivamente a lo largo de toda
la obra, en lugar de por libros, podríamos usar un esquema como
este:
<div1 id=TS01 n='1' type='Volumen'>
<div2 id=TS011 n='1' type='Capítulo'>
...
<div2 id=TS012 n='2'>
...
</div1>
<div1 id=TS02 n='2' type='Volumen'>
<div2 id=TS021 n='3'type='Capítulo'>
...
<div2 id=TS022 n='4'>
...
</div1>
En este
caso la obra tiene dos volúmenes y cada uno de estos tiene dos
capítulos. Los capítulos se numeran convencionalmente del 1 al 4,
pero los valores de los id especificados permite además
referirnos a ellos como si estuvieran numerados: 1.1, 1.2, 2.1, 2.2.
4.2 Encabezados
y cierres
Cada
<div>, <div1>, <div2>, etc., puede
tener un título o encabezado al principio, y (no tan comúnmente)
un cierre como "Fin del Capítulo I". Se emplean estos elementos para
transcribirlos:
- <head>
- contiene cualquier encabezado, por ejemplo, el
título de una sección o el encabezado de una lista o
glosario.
- <trailer>
- contiene un título o pie de cierre que
aparece al final de una división de un texto.
Otros
elementos que pueden ser necesarios al principio o final de las divisiones
textuales se verán más abajo en la sección
19.1.2 Materia preliminar.
Es tarea
del transcriptor decidir si los encabezados y pies deben ser incluidos en la
transcripción. En el caso en que un encabezado es totalmente regular
(por ejemplo, "Capítulo 1") o se le ha dado (el título) como
valores en los atributos (p. ej., <div1 type='Capítulo'
n=1>), se puede omitir; en los casos en que tiene otro texto
irrecuperable, este se debe incluir. Por ejemplo, el comienzo de El
ante-Cristo de Francisco Navarro Villoslada se podría etiquetar
así:
<div1 id=AC1 type='Parte' n='1'>
<head>Favores que matan</head>
<div2 id=AC11 n='1' type='Capítulo'>
<head>La más hermosa</head>
<p>Era una de esas apacibles y sosegadas tardes de otoño,...
4.3 Prosa, Verso
y Teatro
Como se ha
indicado anteriormente, los párrafos que indican una división
textual deben etiquetarse con la etiqueta <p>. Por ejemplo:
<body>
<p>En un lugar de la Mancha, de cuyo nombre no quiero acordarme,
no ha mucho tiempo que vivía un hidalgo de los de lanza en
astillero, adarga antigua, rocín flaco y galgo corredor. Una
olla de algo más vaca que carnero, salpicón las más noches,
duelos y quebrantos los sábados, lantejas los viernes, algún
palomino de añadidura los domingos, consumían las tres partes
de su hacienda. El resto della concluían sayo de velarte, calzas
de velludo para las fiestas, con sus pantuflos de lo mesmo, y los
días de entresemana se honraba con su vellorí de lo más fino.
[...]
</p>
</body>
Existe un
gran número de etiquetas para etiquetar los diferentes componentes de
los textos poéticos y dramáticos (teatro, películas,
etc.):
- <l>
- contiene un único verso, aunque pueda estar
incompleto. Tiene los siguientes atributos:
- part
- indica si el verso está métricamente
completo o no. Los valores válidos son:
F para la parte final de un verso incompleto, Y si el verso está métricamente incompleto, N si el verso está completo o si no se hace referencia a esto, I para la parte inicial de un verso incompleto, M para la parte media de un verso incompleto.
- <lg>
- contiene un grupo de versos que funcionan como una
unidad formal, p. ej., una estrofa, refrán, etc.
- <sp>
- contiene un parlamento en un texto dramático o
en un pasaje presentado como tal, ya esté en prosa o en verso. Tiene los
siguientes atributos:
- who
- identifica al hablante insertando un ID.
- <speaker>
- contiene un tipo especial de encabezado o
rótulo, en el que se da el nombre de uno o más hablantes de un
texto o fragmento dramático.
- <stage>
- contiene cualquier tipo de acotación en un
texto o fragmento dramático. Tiene los siguientes atributos:
- type
- indica el tipo de acotación. Se sugieren los
siguientes valores
entrance , exit , setting , delivery , etc.
Por
ejemplo, este es el comienzo de un texto poético en el que los versos y
estrófas están etiquetadas:
<lg n=I>
<l>Altazor ¿por qué perdiste tu primera serenidad?</l>
<l>¿Qué ángel malo se paró en la puerta de tu sonrisa</l>
<l>Con la espada en la mano?</l>
<l>¿Quién sembró la angustia en las llanuras de tus ojos como el adorno
de un dios?</l>
<l>¿Por qué un día de repente sentiste el terror de ser?</l>
<l>Y esa voz que te gritó vives y no te ves vivir</l>
<l>¿Quién hizo converger tus pensamientos al cruce de todos los vientos
del dolor?</l>
<l>Se rompió el diamante de tus sueños en un mar de estupor</l>
<l>Estás perdido Altazor</l>
<l>Solo en medio del universo</l>
<l>Solo como una nota que florece en las alturas del vacío</l>
<l>No hay bien no hay mal ni verdad ni orden ni belleza</l>
<l>¿En dónde estás Altazor?</l>
</lg>
Las
etiquetas <l> indican versos, no líneas
tipográficas: las líneas originales de algunos versos de arriba
no se han explicitado con esta codificación y se ha perdido. El elemento
<lb> descrito en la sección
5 Numeración de página y
línea se puede usar para marcar las líneas
tipográficas si se deseara.
A veces,
especialmente en los textos dramáticos, las líneas de verso se
dividen entre personajes. La forma más sencilla de etiquetar esto es
usar el atributo part para indicar que las líneas partidas
están incompletas, con se muestra en este ejemplo:
<div1 type ='Acto' n='II'><head>Acto segundo
[...]
<stage rend=italic>Dentro ruido de pastores, y sale Bato.</stage>
[...]
<sp><speaker>CUPIDO</speaker><l part=I>¿Cantáis vos?</l>
<sp><speaker>BATO</speaker><l part=M>Muy mal.</l>
<sp><speaker>CUPIDO</speaker><l part=F>¿Saltáis?</l>
<sp><speaker>BATO</speaker><l part=I>Mucho peor.</l>
<sp><speaker>CUPIDO</speaker><l part=F>¿Hacéis versos?</l>
<sp><speaker>BATO</speaker><l>Sí, señor; mas son perversos.</l>
El mismo
sistema se puede aplicar a las estrófas divididas entre dos
hablantes:
<sp><speaker>ELISA</speaker>
<lg type=estrofa part=I>
<l>Bien te supieras quedar</l>
<l>si me tuvieras amor.</l>
</lg>
<sp><speaker>FABIO</speaker>
<lg part=F>
<l>No hay amor donde hay señor,</l>
<l>ni quedar donde hay mandar.</l>
</lg>
Este
ejemplo muestra cómo se puede etiquetar un diálogo en prosa en un
texto dramático. También muestra el uso del atributo who
para indicar un código que identifique al hablante de ese fragmento de
diálogo:
<sp who="MAT">
<speaker>MATILDE</speaker>
<p>Pero, querida tía, ¿es algún delito acaso interesarse
en la suerte de Federico? Es tan bueno, tan amable, tan
desgraciado... Un joven huérfano, aislado, que nunca ha
conocido a sus padres... ¿Usted misma no le recogió en su
casa desde su más tierna infancia? ¿No le ha dado usted
una educación nada común?...</p>
</sp>
<sp who="ISA">
<speaker>ISABEL</speaker>
<p>Eres muy niña todavía, Matilde. Es verdad que no es un
delito querer a Federico; que lo merece, ¡ah! sin duda; pero
una joven de tus años debe ocultar sus sentimientos, y...</p>
</sp>
<sp who="MAT">
<speaker>MATILDE</speaker>
<p>Señora...</p>
</sp>
5
Numeración de página y línea
Los
finales de página y línea pueden marcarse con los siguientes
elementos vacíos.
- <pb>
- marca el límite entre una página y la
siguiente según un sistema de referencia estándar.
- <lb>
- marca el inicio de una nueva línea
(tipográfica) según alguna edición o versión del
texto.
Estos
elementos indican un punto exacto del texto, no un fragmento de este. El
atributo global n debe emplearse para indicar el número de la
página o línea que empieza en la etiqueta. Además, estos
dos elementos comparten el siguiente atributo:
- ed
- indica la edición o versión en la que
se da el final de página en ese punto.
Cuando se
trabaja con un texto original paginado, suele ser útil indicar esta
paginación, aunque sea para simplificar más tarde la
corrección. Indicar los finales de línea puede ser útil
por el mismo motivo; el tratamiento de los guiones al final de línea en
las fuentes impresas requerirá más atención.
Si se
marca la paginación, etc., de más de una edición, se debe
especificar cada edición en el atributo ed, e insertar tantas
etiquetas como sean necesarias. Por ejemplo, en el siguiente pasaje indicamos
dónde están los fines de página en dos ediciones
diferentes (ED1 y ED2)
<p>Pero otra vez, sin quererlo, me aparto de mi objeto,
y no ha de ser así, sino que vuelvo atrás para deciros
que el señor conde de Rumblar, luego que esparcía su
ánimo en aquello del esqueleto, y hablaba por los codos
durante una hora, iba en busca de entretenimientos más
agradables, y aquí es donde viene como anillo en el dedo
la ocasión de nombrar <pb ed=ED2 n='15'> a la Zaina,
porque a eso de las once era cuando penetraba en sus
salones el joven de que me ocupo, no acompañado sólo
por el citado Mañara, sino también por D. Luis de
Santorcaz, que <pb ed=ED1 n='10'> siempre se le unía en
la Rosa-Cruz para seguir juntos hasta la madrugada.</p>
Los
elementos <pb> y <lb> son casos especiales de la
clase general de elementos milestone que marcan puntos de referencia
dentro de un texto. El TEI Lite también tiene un elemento
genérico <milestone>, que no está limitado a casos
especiales sino que puede marcar cualquier tipo de punto de referencia: por
ejemplo, un final de columna, el inicio de una nueva sección que no se
marca de otro modo, etc. Este elemento tiene la siguiente descripción t
atributos:
- <milestone>
- marca el límite entre secciones de un texto,
tal y como se indica en los cambios de un sistema de referencia
estándar. Tiene los siguientes atributos:
- ed
- indica la edición o versión a la que
hace referencia el milestone.
- unit
- indica que tipo de sección cambia en ese
milestone.
Los
nombres usados para los tipos de unidad (atributo unit) y para las
ediciones a las que hace referencia (atributo ed) pueden elegirse
libremente, pero se deben indicar en el encabezado (teiHeader).
El
elemento <milestone> puede usarse en lugar de otros, o los otros
pueden emplearse como un conjunto; pero no deben mezclarse arbitrariamente.
6 Marcar frases
enfatizadas
6.1 Cambios de
tipografía, etc.
Las
palabras o frases enfatizadas son aquellas que visiblemente son diferentes del
resto del texto, normalmente por un cambio en la fuente, en el tipo de letra o
en el color, con el fin de llamar la atención del lector.
El
atributo global rend puede utilizarse en cualquier cualquier elemento
cuanodo sea necesario para indicar cómo debe ser ese enfasis. Por
ejemplo, un encabezado que deba ir en negrita podría etiquetarse como
head rend='Bold', y uno en cursiva como head
rend='Italic'.
No siempre
es posible o deseable interpretar las razones de dichos cambios en el formato
del texto. En tales casos el elemento <hi> puede usarse para
marcar un fragmento de texto enfatizado sin indicar su estatus o
posición.
- <hi>
- marca una palabra o frase gráficamente
distinta del texto que le rodea por razones que no se especifican.
En el
siguiente ejemplo se recoge aunque no se interpreta el uso de una
tipografía distinta para el subtítulo y para el nombre incluido:
<hi rend=gothic>El ama y la sobrina</hi>
El lector tendrá la bondad de trasladarse con nosotros
a una hermosa quinta del reino de Granada, donde vivía
habrá como veinte años una familia acomodada y virtuosa.
<hi rend=italic>Don Alberto Ludueña</hi> se había
enriquecido en el comercio: y todo su conato, desde que
perdió a una esposa querida...
Por otro
lado, en los casos en que se sepa con certeza la causa del enfasis podemos usar
otros elementos más específicos.
- <emph>
- marca palabras o frases que son enfatizadas por un
efecto lingüístico o retórico.
- <foreign>
- identifica una palabra o frase que está en un
idioma diferente del del texto de alrededor.
- <mentioned>
- marca palabras o frases mencionadas o citadas, no
usadas.
- <term>
- contiene una palabra o expresión que se
considera un término técnico.
- <title>
- contiene el título de una obra, ya sea un
artículo, libro, periódico, etc., y los subtítulos. Tiene
los siguientes atributos:
- level
- indica si es el título de un artículo,
libro, periódico, serie o material inédito. Los valores
válidos son:
m para un título monográfico (libro, colección u
otro objeto publicado como un objeto independiente, incluyendo cada uno de los
volúmenes de las obras con varios); s (título de una serie o secuencia); j (título de un periódico); u para los títulos de material inédito (se incluyen las
tesis y conferencias, excepto en el caso de que estén publicadas por
alguna editorial); a para los títulos analíticos (artículos, poemas u
otros objetos publicados como parte de una publicación mayor).
- type
- clasifica el título de acuerdo con alguna
tipología. Algunos valores recomendados son:
abbreviated , main , subordinate (para los subtítulos y los títulos de partes) y parallel (para los títulos alternativos, a menudo en otro idioma, por los
que también se conoce la obra).
Algunos
rasgos (especialmente citas o glosas) se pueden encontrar en un texto o marcado
con algún enfasis o con comillas. En estos casos, se deben emplear los
elementos <q> y <gloss> (como se verá en
la siguiente sección). Si se debiese mantener el formato,
usaríamos el atributo global rend.
He
aquí un ejemplo de los elementos definidos:
Dafnis y Cloe, más bien que
de novela bucólica, puede calificarse de novela campesina, de novela
idílica o de idilio en prosa; y en este sentido, lejos de pasar de moda,
da la moda y sirve de modelo aún, mutatis mutandi, no
sólo a Pablo y Virginia, sino a muchas preciosas novelas de Jorge Sand,
y hasta a una que compuso en español, pocos años ha, cierto amigo
mío, con el título de Pepita
Jiménez.
Si
interpretamos la función del texto enfatizado, la frase quedaría
así:
<title>Dafnis y Cloe</title>, más bien que de
novela bucólica, puede calificarse de novela campesina,
de novela idílica o de idilio en prosa; y en este
sentido, lejos de pasar de moda, da la moda y sirve de
modelo aún, <foreign>mutatis mutandi</foreign>, no sólo
a Pablo y Virginia, sino a muchas preciosas novelas de
Jorge Sand, y hasta a una que compuso en español, pocos
años ha, cierto amigo mío, con el título de <title>Pepita
Jiménez</title>.
Si
sólo reproducimos el formato del original, quedaría entonces
así:
<hi rend=italic>Dafnis y Cloe</hi>, más bien que
de novela bucólica, puede calificarse de novela campesina,
de novela idílica o de idilio en prosa; y en este sentido,
lejos de pasar de moda, da la moda y sirve de modelo aún,
<hi rend=italic>mutatis mutandi</hi>, no sólo a Pablo y
Virginia, sino a muchas preciosas novelas de Jorge Sand,
y hasta a una que compuso en español, pocos años ha,
cierto amigo mío, con el título de <hi rend=italic>Pepita
Jiménez</hi>.
6.2 Citas y
características similares
Del mismo
modo que los cambios en la tipografía, las comillas se usan
convencionalmente para indicar varios rasgos dentro de un texto, entre los que
destacan las citas. En la medida de lo posible, recomendamos que el rasgo
subyacente sea etiquetado con los siguientes elementos, en lugar de simplemente
reproducir las comillas del texto:
- <q>
- contiene aparentemente una cita -una
representación de habla o pensamiento marcado como si fuera citado por
otra persona (esté realmente citado o no); en prosa, suele ser el caso
de los parlamentos de un personaje; en los diccionarios, el elemento
<q> se puede usar para marcar ejemplos de uso reales o
inventados. Tiene los siguientes atributos:
- type
- puede usarse para indicar si el texto citado es
hablado o pensado, o para describirlo de modo más exacto. Posibles
valores recomendados son:
spoken (para la representación de estilo directo, normalmente marcado
con comillas o raya) y thought (para la representación del pensamiento, p. ej., un
monólogo interno).
- who
- aquí se identifica al hablante de dicho texto
en estilo directo.
- <mentioned>
- marca palabras o frases mencionadas o citadas, no
usadas.
- <soCalled>
- contiene una palabra o frase en la que el autor o
narrador niega su responsabilidad, por ejemplo mediante el uso de comillas o
cursiva.
- <gloss>
- marca una palabra o frase que constituye una glosa o
definición de alguna otra palabra o frase. Tiene los siguientes
atributos:
- target
- identifica la palabra o frase asociada.
He
aquí un sencillo ejemplo de cita:
Con esa profundización en las más íntimas
realidades humanas hay que relacionar la
permanencia de uno de los elementos trágicos
fundamentales, la catarsis, que Buero entiende
como <q>interior perfeccionamiento.</q>
Para
indicar cómo fue impresa una cita (por ejemplo, in-line o
resaltada como display o block quotation), se debe usar el
atributo rend. También puede emplearse para indicar cualquier
tipo de marca de citación.
El estilo
directo interrumpido por un narrador puede representarse simplemente cerrando
la etiqueta de cita y abriéndola de nuevo tras la interrupción,
como en este ejemplo:
<p><q>Extraño es</q> —dijo fray Domingo—
<q>que afirme todo eso vuestra reverencia por meras
conjeturas.</q></p>
Si es
importante transmitir la idea de que los dos elementos <q>
juntos reproducen un único parlamento, podemos usar los atributos de
unión next y prev, tal y como se describe en la
sección 8.3 Atributos de enlace.
Las citas
pueden ir acompañadas por una referencia a la fuente o hablante,
utilizando el atributo who, según se indique o no en el texto
dicha fuente. Por ejemplo:
<q who=Wilson>Spaulding, he came down into the office just this
day eight weeks with this very paper in his hand, and he
says:—<q who=Spaulding>I wish to the Lord, Mr. Wilson, that
I was a red-headed man.</q></q>
<q who=Quijote>Gracias doy al cielo por la merced
que me hace, pues tan presto me pone ocasiones
delante donde yo pueda cumplir con lo que debo a mi
profesión, y donde pueda coger el fruto de mis buenos
deseos. Estas voces, sin duda, son de algún menesteroso
o menesterosa que ha menester mi favor y ayuda.</q>
Este
ejemplo también muestra cómo puebe haber citas incluidas dentro
de otras citas: un personaje (Wilson) cita a otro personaje (Spaulding).
El creador
del texto electrónico debe decidir si las marcas de cita (comillas,
guiones,...) son reemplazadas por las etiquetas o si las etiquetas son
añadidas y se mantienen las marcas de cita (comillas, guiones,...). Si
las marcas de citas son suprimidas del texto, se debe usar el atributo
rend para indicar cómo venían dichas citas en el texto
original.
Como con
el resaltado, no siempre es posible ni deseable interpretar de este modo la
función de las marcas de cita de un texto. En tales casos, podemos usar
la etiqueta <hi rend=quoted> para marcar un texto citado sin
indicar su estado o situación.
6.3 Palabras y
expresiones en otros idiomas
Las
palabras o frases que están en un idioma distinto al principal del texto
pueden etiquetarse de dos modos. Si la palabra o frase ya está
etiquetado por alguna razón, se puede rellenar el atributo lang
de dicho elemento con un valor que indique el idioma. En los casos en que no
hay un elemento, se debe usar el elemento <foreign>, usando
también en este caso el atributo lang. Por ejemplo:
John has real <foreign lang=fra>savoir-faire</foreign>.
Have you read <title lang=deu>Die Dreigroschenoper</title>?
<mentioned lang=fra>Savoir-faire</mentioned> is French for know-how.
The court issued a writ of <term lang=lat>mandamus</term>.
Como
muestran estos ejemplos, el elemento <foreign> no debe usarse
para etiquetar palabras en otro idioma si se usa otro elemento más
específico como <title>, <mentioned>, o
<term>. El atributo global lang se puede usar en
cualquier elemento para mostrar que se está usando un idioma diferente
del general del texto.
7 Notas
Todas las
notas deben marcarse utilizando el mismo elemento, ya estén impresas
como notas al pie, al final de capítulo, marginales o de otro modo:
- <note>
- contiene una nota o anotación. Tiene los
siguientes atributos:
- type
- describe el tipo de nota.
- resp
- indica quién es el responsable de dicha
anotación: autor, editor, traductor, etc. El valor puede ser
author , editor , etc., o las iniciales del quien ha hecho la anotación.
- place
- indica dónde aparece la nota en el texto
fuente. Tiene los siguientes valores válidos:
inline , interlinear , left , right , foot , y end , para aquellas notas que aparecen como párrafos en el cuerpo del
texto, entre líneas, al margen izquierdo o derecho, a pie de
página o al final de capítulo o volumen, respectivamente.
- target
- indica el punto de enlace a una nota o el principio
del fragmento al que la nota está referida.
- targetEnd
- apunta al final del fragmento al que la nota hace
referencia, si la nota no está incluida en el texto en ese punto.
- anchored
- indica si el texto copia muestra el lugar exacto de
referencia de la nota.
En la
medida de lo posible, el texto de la nota debe insertarse en el texto en el
punto donde su identificador o marca aparece en el texto fuente. Esto puede no
ser posible por ejemplo con las notas marginales, que no pueden ser insertadas
en un lugar exacto. Para simplificarlo, lo adecuado puede ser colocar las notas
marginales antes del párrafo. Las notas también pueden ser
colocadas en una división independiente del texto (como notas al final
de capítulo, en los libros impresos) y hacer enlaces al lugar donde
hacen referencia por medio del atributo target.
El
atributo n puede usarse para indicar el número o identificador
de una nota si es necesario. El atributo resp debe usarse
consistentemente para distinguir entre las notas del autor y las del editor, si
la obra tiene de los dos tipos; de otro modo, el TEI header debe
indicar de qué tipo son.
Ejemplos:
<p>Cuál encomiaba la defensa de Zaragoza
<note place=foot n=1>El primer sitio de
Zaragoza.</note>; cuál ponía la defensa
de Valencia contra Moncey por cima de
todos los hechos de armas antiguos y
modernos; quién decía que nada podía
igualarse a lo del Bruch;...</p>
<lg>
<l>En tiempo del Estoraque
<note place=margin>El año 1833 el general
Rosas en su mensaje a la Sala dijo que, en
su campaña al Colorado, había encontrado
por junto la papilla y el estoraque.</note></l>
<l>que encontró don Juan Manuel,</l>
<l>largaba cierto papel,</l>
<l>titulao el Bristi-Pake,</l>
<l>un Inglés de mal empaque...</l>
</lg>
8 Referencias
cruzadas y enlaces
Las
referencias cruzadas o enlaces de un punto a otro dentro del mismo documento
SGML se pueden etiquetar usando los elementos descritos en la sección
8.1 Referencias cruzadas sencillas. Las
referencias o enlaces a elementos de otro documento SGML o a partes de
documentos que no estén en SGML pueden marcarse utilizando los
punteros extendidos del TEI (TEI extended pointers) descritos
en la sección 8.2 Punteros
extendidos. Los enlaces implícitos (como la asociación entre
dos textos paralelos o entre un texto y su interpretación) puede
codificarse usando los atributos de enlace a los que hace referencia en la
sección 8.3 Atributos de
enlace.
8.1 Referencias
cruzadas sencillas
Una
referencia cruzada de un punto a otro de un documento puede etiquetarse con los
siguientes elementos:
- <ref>
- una referencia a otro sitio del documento, en
función de uno o más elementos identificables, posiblemente
modificados por un texto o comentario adicional.
- <ptr>
- un puntero a otro sitio del documento en
función de uno o más elementos identificables.
Estos
elementos comparten los siguientes atributos:
- target
- especifica el destino del puntero como uno o
más identificadores SGML.
- type
- categoriza el puntero de algún modo, usando un
conjunto conveniente de categorías.
- targType
- especifica el tipo (o tipos) de elemento al que
apunta este puntero.
- crDate
- especifica cuando se creó este puntero.
- resp
- especifica el creador del puntero.
La
diferencia entre estos dos elementos es que <ptr> es un elemento
vacío, que únicamente indica un punto desde el que se hace un
enlace, mientras que <ref> puede contener texto -normalmente el
texto de la propia referencia cruzada. El elemento <ptr> se usa
para las referencias cruzadas que nos indicadas por algún símbolo
o icono o por un botón en un texto electrónico. También es
útil en los sistemas de producción de documentos en los que el
maquetador puede general la forma verbal correcta de una referencia
cruzada.
Las
siguientes dos forma, por ejemplo, son lógicamente equivalentes (dando
por hecho que hemos documentado la forma verbal exacta de las referencias
cruzadas representadas con los elementos <ptr>):
Para más información ver el <ref target=ART4>artículo IV</ref>.
Para más información ver <ptr target=ART4>.
El valor
del atributo target debe ser un identificador SGML del documento SGML.
Esto implica que el fragmento o frase al que se apunta debe tener un
identificador y por lo tanto debe estar etiquetado con algún elemento.
En el siguiente ejemplo, la referencia es a un elemento
<div1>:
...
para más información ver <ptr target=ART4>.
...
<div1 id=ART4><head>Del género de los nombres</head>
...
Dado que
el atributo id es global, cualquier elemento de un documento puede ser
enlazado de este modo. En el siguiente ejemplo, se le ha dado un identificador
a un párrafo para que pueda ser enlazado:
...
esto está explicado en <ref target=pspec>el párrafo sobre los enlaces</ref>
...
<p id=pspec>Se pueden hacer enlaces a cualquier elemento
...
El
atributo targType se puede usar para indicar que el elemento referido
debe ser de un tipo específico, como en el siguiente ejemplo:
...
esto está explicado en <ref target=dspec targType='div1 div2'>
la sección sobre los enlaces</ref>
Esta
referencia puede fallar si el elemento con el identificador dspec no
es un <div1> o un <div2>. Sin embargo, esto no
puede revisarse únicamente por medio de un programa SGML, ya que el
programa SGML sólo puede comprobar que el elemento dspec
existe.
El
atributo type puede usarse para clasificar, de algún modo, el
tipo de enlace representado por el puntero. Los atributos resp y
crDate también pueden usarse para representar al responsable y
la fecha de creación del enlace, respectivamente. Por ejemplo:
...
esto está explicado en
<ref type=xref resp=auto crdate=950521 target=dspec targtype='div1 div2'>
la sección sobre los enlaces</ref>
Lo
más probable es que estos atributos se usen en sistemas de hipertexto
que contengan muchos punteros usados con diferentes propósitos y creados
por una variedad de medios.
A veces el
destino de una referencia cruzada no corresponde a ningún rasgo
particular del texto, y por lo tanto no puede etiquetarse como un elemento. Si
el destino deseado es simplemente un punto del documento, el modo más
fácil de marcarlo es introducir un elemento <anchor> en
el sitio apropiado. Si el destino es una serie de palabras sin etiquetar
específicamente, se puede introducir el elemento <seg>
para marcarlas. Estos dos elementos tienen la siguiente descripción:
- <anchor>
- especifica un sitio o punto dentro de un documento al
que hacer la referencia.
- <seg>
- identifica un fragmento de texto dentro de un
documento para que pueda enlazarse. Tiene los siguientes atributos:
- type
- indica el tipo de segmento.
En este
ejemplo (ficticio), los elementos <ref> se han empleado para
representar puntos en este texto que deben ser enlazados de algún modo a
otras partes de este; en el primer caso a un punto, y en el segundo a una serie
de palabras:
Volviendo al <ref target=ABCD>punto donde me
quedé dormido</ref>, me di cuenta que hay
<ref target=EFGH>tres palabras</ref> que han
sido marcadas en rojo por el lector anterior
Este
etiquetado requiere que los elementos con identificadores específicos
(ABCD y EFGH en este ejemplo) aparezcan en algún sitio
del documento. Si tenemos en cuenta que no exista ningún elemento con
estos identificadores podemos utilizar los elementos <anchor> y
<seg>:
.... <anchor type=bookmark id='ABCD'> ....
....<seg type=target id='EFGH'> ... </seg> ...
El
atributo type debe usarse (como arriba) para distinguir los diferentes
propósitos por los que se usan estos elementos en el texto. Otros usos
son los que se verán más abajo en la sección
8.3 Atributos de enlace.
8.2 Punteros
extendidos
Los
elementos <ptr> y <ref> sólo pueden usarse
para referencias cruzadas o enlaces cuyos destinos están en el mismo
documento SGML. Sólo pueden hacer referenica a elementos SGML. Los
elementos explicados en esta sección no están restringidos.
- <xptr>
- define un puntero a otra posición en el mismo
documento o a otro documento externo.
- <xref>
- define un puntero a otra posición en el mismo
documento o a otro documento externo, posiblemente modificado por un texto o
comentario adicional.
Además de los atributos de
los punteros que hemos visto en la sección
8.1 Referencias cruzadas sencillas, estos
elementos comparten también estos atributos, que se usan para indicar el
destino de la referencia cruzada o enlace en lugar del atributo
target:
- doc
- especifica el documento en el que se encuentra el
punto requerido; por defecto es el mismo documento.
- from
- especifica el comienzo del destino del puntero como
una expresión en la sintaxis del puntero extendido del TEI; por defecto
todo el documento indicado en el atributo doc.
- to
- especifica el fin del destino del puntero como una
expresión en la sintaxis del puntero extendido del TEI; sólo
puede indicarse si se ha rellenado el atributo from.
La
especificación completa del lenguaje usado para expresar el destino de
los punteros extendidos del TEI está fuera de lo previsto en este
documento; aquí señalamos únicamente algunos de los aspectos más útiles. Hay que consultar las Normas completas para estudiarlo en más detalle.
Un
<xptr> (o <xref>) puede apuntar a todo otro
documento simplemente insertando un nombre de entidad como valor del atributo
doc, como en este ejemplo:
ver <xref doc=P3>Las Normas del TEI</xref>
Este
ejemplo asume que algún sistema o entidad pública con el nombre
P3 ha sido declarada. Esta declaración puede colocarse dentro
del archivo de extensión litemods.ent o en cualquier otro modo
específico del software de SGML que se use (como veremos en la
sección 15 Imágenes y
Gráficos ).
El
atributo from se usa para especificar cualquier lugar dentro del
documento especificado en el atributo doc. El valor especificado
utiliza un lenguaje especial, llamado TEI extended pointer syntax
(sintaxis de los punteros extendidos del TEI); de la que sólo
se dan algunos detalles aquí. En este lenguaje, los lugares se definen
como una serie de steps (pasos), y cada uno identifica una
parte del documento, a menudo en función de los lugares identificados en
los pasos anteriores. Por ejemplo, es posible apuntar a la tercera
oración del segundo párrafo del capítulo dos seleccionando
el capítulo dos en el primer paso, el segundo párrafo en el
segundo paso y la tercera oración en el último paso. Un paso
puede estar definido en función de conceptos de SGML (como parent , descendent , preceding , etc.) o, más líbremente, en función de patrones
de texto, de posición palabras o de carácter. También se
puede usar una notación que no sea de SGML o especificar un lugar dentro
de un gráfico en función de un sistema de coordenadas.
Los
atributos from y to emplean la misma notación. Cada
uno apunta a una parte del documento de destino; el puntero extendido en
conjunto apunta al fragmento que comienza en el inicio del from y
continúa hasta el final del to.
El primer
paso en una ruta de situación debe especificar el identificador de
algún elemento dentro del documento de destino, como en este
ejemplo:
<xptr doc=P3 from='id (SA)'>
Esto
selecciona todo el elemento que lleve el identificador SA dentro de la
entidad P3. Si se necesita un destino más concreto debemos
seguir otros pasos. Los siguientes términos están disponibles
para seleccionar otros elementos en función de su relación con
este:
- child
- elementos contenidos por este.
- ancestor
- elementos que contienen a este, directa o
indirectamente.
- previous
- elementos con el mismo padre que este pero anteriores
en el documento.
- next
- elementos con el mismo padre que este pero
posteriores en el documento.
- preceding
- elementos del documento que empiezan antes de este,
independientemente de sus padres.
- following
- elementos del documento que empiezan después
de este, independientemente de sus padres.
Cada uno
de estos términos implica un conjunto particular de elementos (el
conjunto de hijos, el conjunto de ancestros, el conjunto de hermanos, etc.);
para especificar a qué elemento del conjunto estamos apuntado el
término puede, opcionalmente, ir seguido por una lista entre
paréntesis que contenga:
- un número positivo o negativo, que indique
cuál de los muchos elementos posibles es el deseado (+1 indica el primer
elemento encontrado, empezando desde la posición actual y -1 indica el
último), o el término
all , que indica que se apunta a todos los elementos del conjunto;
- un identificador genérico, que indica el tipo
de elemento requerido o un asterisco que indica cualquier tipo de
elemento;
- un conjunto de nombres y valores de elementos, que
indiquen que el elemento selecionado debe tener atributos con los nombres y
valores especificados, si hay alguno.
Siguiendo
con el ejemplo anterior, la siguiente referencia seleccionará el tercer
elemento <p> directamente contenido por cualquier elemento que
tenga el identificador SA:
<xptr doc=P3 from='id (SA) child (3 p)'>
Del mismo
modo, dado que la entidad P3 es de hecho una referencia a la forma
SGML de las Normas del TEI, entonces la siguiente referencia
seleccionará la sección 14.2.2 de aquella publicación en
la que (como sucede) la sintaxis del puntero extendido está formalmente
definida:
Para más detalles, ver
<ref doc=P3 from='id (SA) child (2 div2) child (2 div3)'>
La definición de la sintaxis de los punteros extendidos del TEI
</ref>
Comúnmente, el objetivo de
una referencia cruzada estará definida adecuadamente en el atributo
from. En algunos documentos, sin embargo, puede ser más
conveniente definir tanto el punto de partida como el de fin. Como se ha dicho
arriba, el atributo to se proporciona por este motivo. Por
ejemplo,
<xptr doc=P1 from='id (xyz)' to='id (abc)'>
es un
puntero extendido cuyo destino es el fragmento que comienza al principio de
cualquier elemento del documento P1 que tenga el identificador
XYZ y que acaba al final de cualquier elemento del mismo documento que
tenga el identificador ABC. Todos los elementos que haya en medio
también están incluidos, independientemente de la estructura; el
puntero es incorrecto si el final del ABC está antes del
comienzo de XYZ.
Utilizando
esta sintaxis es muy fácil construir especificaciones muy complejas. Por
ejemplo, la siguiente referencia seleccionará el elemento
<head> más reciente que lleve un atributo lang
con el valor LAT y que aparezca antes del comienzo del elemento con el identificador
SA:
<xptr doc=P3 from='id (SA) preceding (1 head lang lat)'>
Si no se
da un valor al atributo doc, se presume el dicho documento. Por tanto,
las siguientes referencias son semánticamente equivalentes. Las dos
indican el elemento con el identificador X1 de dicho documento:
<ptr target=X1>
<xptr from='id (X1)'>
8.3 Atributos de
enlace
Los
siguientes atributos de enlace están definidos en todos los
elementos de la DTD del TEI Lite:
- ana
- enlaza un elemento con su interpretación.
- corresp
- enlaza un elemento con uno o más elementos
parecidos.
- next
- enlaza un elemento al siguiente en un conjunto.
- prev
- enlaza un elemento al anterior en un conjunto.
El
atributo ana (análisis) está pensado para aquellos casos
en que se ha definido un conjunto de análisis o interpretaciones
abstractas en algún lugar del documento, como se verá en la
sección 16 Interpretación y
análisis . Por ejemplo, un análisis lingüístico
de la frase "Juan bebe agua" podría etiquetarse así:
<seg type=sentence ana=SVO>
<seg type=lex ana=NP1>Juan</seg>
<seg type=lex ana=VVT>bebe</seg>
<seg type=lex ana=NP1>agua</seg>
</seg>
Este
etiquetado implica la existencia en el documento de elementos con
identificadores SVO, NP1 y VVT donde se explique el
significado de estos códigos. Fíjese en el uso del elemento
<seg> par marcar los componentes del análisis,
distinguiéndolos por medio del atributo type.
El
atributo corresp (correspondiente) proporciona un modo sencillo de
representar algún tipo de correspondencia entre dos elementos del texto.
Por ejemplo, en un texto multilingüe, se puede utilizar para enlazar el
original y la traducción, como en este ejemplo:
<seg lang=FRA id=ES1 corresp=EN1>Juan bebe agua</seg>
<seg lang=ENG id=EN1 corresp=ES1>John drinks water</seg>
El mismo
mecanismo puede usarse para varios fines. En el siguiente ejemplo (ficticio),
se ha usado para representar correspondencias anafóricas entre "the
show" y "Shirley", y entre "NBC" y "the network":
<p>La obra <title id=quijote>Don Quijote</title>, que se
estrenó el pasado sábado, no fue anunciada en la
<name id=ser>Cadena SER</name>, aunque
<seg id=network corresp=nbc>la emisora</seg>
dice que sí que hicieron un comentario sobre
<seg id=show corresp=shirley>la representación</seg>.
Los
atributos next y prev proporcionan una forma sencilla de
enlazar los componentes de un elemento discontinuo, como en el siguiente
ejemplo:
<q id=R1a next=R1b>-Sí traen</q>
-respondió Ricardo (que éste era
el nombre del cautivo)-;
<q id=R1b prev=R1a>mas, ¿qué aprovecha,
si en ninguna parte a do voy
hallo tregua ni descanso en ellos, antes
me los han acrecentado estas ruinas que
desde aquí se descubren?</q>
9 Intervenciones
del editor
El proceso
de etiquetar un texto electrónico tiene mucho en común con el
proceso de editar un manuscrito u otro texto para ser publicado. En ambos casos
un editor escrupuloso puede querer recoger tanto el estado original del texto
fuente como las correcciones o cambios realizados sobre este. Los elementos
descritos en esta sección y en la siguiente proporcionan algunas formas
para satisfacer estas necesidades.
Los
siguientes dos elementos pueden ser empleados para marcar
correcciones, es decir, cambios introducidos por el editor donde este
considera que el original está equivocado:
- <corr>
- contiene la forma correcta de un fragmento que
aparentemente es erróneo en el texto. Tiene los siguientes
atributos:
- sic
- da la forma original del aparente error en el
testo.
- resp
- indica si es el editor o el transcriptor el
responsable de la corrección introduccida en el contenido del elemento
<corr>.
- cert
- indica el grado de certeza de la corrección
introducida en el elemento <corr>.
- <sic>
- contiene texto reproducido aunque aparentemente sea
incorrecto o inexacto. Tiene los siguientes atributos:
- corr
- da una corrección del aparente error.
- resp
- indica si es el editor o el transcriptor el
responsable de sugerir la corrección.
- cert
- indica el grado de certeza de la
corrección.
Los
siguientes dos elementos pueden emplearse para marcar normalizaciones,
es decir, los cambios introducidos por el editor para conseguir consistencia o
modernizar el texto:
- <orig>
- contiene la forma original de una lectura, para la
cual se provee una forma regularizada en un valor de atributo. Tiene los
siguientes atributos:
- reg
- da una forma regularizada (normalizada) del
texto.
- resp
- indica el responsable de la regularización de
la palabra o frase.
- <reg>
- contiene una lectura que ha sido regularizada o
normalizada en algún sentido. Tiene los siguientes atributos:
- orig
- da la forma sin regularizar del texto tal y como se
encuentra en el texto fuente.
- resp
- indica el responsable de la regularazación de
la palabra o frase.
Por
ejemplo, en la lectura
La bariedad contienes de las aves
que volando veloces
al sol despiertan con sonoras voces
quando con dulce lijerez asuma
el editor considera que hay (1) un error
en lijerez asuma en lugar de ligereza suma, y (2) los errores
ortográficos en bariedad y quando en lugar de
variedad y cuando. La consideración del editor
podría etiquetarse así:
La <reg sic="baridad">variedad</reg> contienes de las aves,
que volando veloces
al sol despiertan con sonoras voces,
<reg sic='quando'>cuando</reg>con dulce <corr sic='lijerez asuma' ed=MSQ>ligereza suma</corr>
10 Omisiones,
supresiones y adiciones
Además de corregir o
normalizar palabras y frases, los editores y transcriptores también
pueden añadir texto que no está, omitir texto o transcribir texto
borrado o tachado en el texto fuente. Además, algúnos textos son
especialmente difíciles de transcribir porque no están claros en
la página. Los siguientes elementos pueden usarse para codificar estos
casos:
- <add>
- contiene letras, palabras, o frases insertadas en el
texto por un autor, escribano, anotador o corrector. Tiene los siguientes
atributos:
- place
- si la adición está escrita en el texto
fuente, indica dónde aparece. Tiene los siguientes valores posibles:
inline , supralinear , infralinear , left (en el margen izquierdo), right (en el margen derecho), top , bottom , etc.
- <gap>
- indica un punto donde se ha omitido material en una
transcripción, ya sea por motivos del editor descritos en el TEI header,
como parte de la práctica de muestreo, o porque el material es ilegible
o inaudible. Tiene los siguientes atributos:
- desc
- da una descripción del texto omitido.
- resp
- indica el responsable (editor, transcriptor o
etiquetador) de la decisión de no ofrecer la transcripción del
texto y por lo tanto de la utilización de la etiqueta
<gap>.
- <del>
- contiene una letra, palabra o pasaje borrado, marcado
como borrado, o marcado por un autor, copista, anotador o corrector como
superfluo o falso en el texto. Tiene los siguientes atributos:
- type
- indica el tipo de supresión usando cualquier
clasificación.
- status
- puede usarse para indicar supresiones
erróneas, p. ej. tachones que incluyen mucho o poco texto.
- hand
- señana la mano del que ha realizado la
supresión.
- <unclear>
- contiene una palabra, frase, o pasaje que no puede
transcribirse con certeza porque es ilegible o inaudible en la fuente. Tiene
los siguientes atributos:
- reason
- indica la razón por la que el material es
difícil de transcribir.
- resp
- indica el responsable de la transcripción de
la letra, palabra o pasaje que contiene el elemento
<unclear>.
Estos
elementos pueden emplearse para indicar los cambios realizados por un editor,
por el transcriptor o (en el caso de manuscritos) por el autor o copista. Por
ejemplo, si la fuente de un texto electrónico dijera:
Los siguientes elementos se han provisto para
para sencillas intervenciones de los editores.
podría quererse corregir el claro
error pero, al mismo tiempo, indicar la supresión del superfluo segundo
para, de este modo:
Los siguientes elementos se han provisto para
<del hand="MSQ">para</del> sencillas intervenciones de los editores.
El valor MSQ en el atributo hand indica que "MSQ" corrigió la
duplicación de para.
Si la
fuente dijera:
Los siguientes elementos provisto para
para sencillas intervenciones de los editores.
(p.ej., si el verbo se ha suprimido
descuidadamente) entonces el texto corregido podría ser:
Los siguientes elementos <add hand="MSQ">se ha</add>n provisto para
<del hand="MSQ">para</del> sencillas intervenciones de los editores.
El valor MSQ en el atributo hand indica que "MSQ" corrigió la
duplicación de para.
Estos
elementos no están limitados a los cambios realizados por un editor;
también pueden usarse para indicar cambios realizados por los autores en
los manuscritos. Un manuscrito en el que el autor escribió primero "How
it galls me, what a galling shadow", luego tachó la palabra
galls e insertó dogs podría etiquetarse
así:
How it <del hand=DHL type=overstrike>galls</del>
<add hand=DHL place=supralinear>dogs</add> me,
what a galling shadow
Del mismo
modo, los elementos <unclear> y <gap> pueden
usarse conjuntamente para indicar la omisión de material ilegible; el
siguiente ejemplo también muestra el uso de <add> para
una hipotética enmienda:
One hundred & twenty good regulars joined to me
<unclear><gap reason='indecipherable'></unclear>
& instantly, would aid me signally <add hand=ed>in?</add>
an enterprise against Wilmington.
El
elemento <del> marca material que es transcrito como parte del
texto electrónico aunque realmente esté suprimido, mientras que
<gap> indica la situación de material que se ha omitido
en el texto electrónico, sea legible o no. Un corpus de idioma, por
ejemplo, podría omitir largas citas en otros idiomas:
<p> ... An example of a list appearing in a fief ledger of
<name type=place>Koldinghus</name> <date>1611/12</date>
is given below. It shows cash income from a sale of
honey.</p>
<q><gap desc='quotation from ledger'
reason='in Danish'></q>
<p>A description of the overall structure of the account is
once again ... </p>
Otros
corpora (en especial aquellos creados antes de la difusión de los
escáners) omiten sistemáticamente imágenes y
fórmulas matemáticas:
<p>At the bottom of your screen below the mode line is the
<term>minibuffer</term>. This is the area where Emacs
echoes the commands you enter and where you specify
filenames for Emacs to find, values for search and replace,
and so on.
<gap desc='diagram of Emacs screen' reason='graphic'>
</p>
11 Nombres,
fechas, números y abreviaturas
El esquema
del TEI define elementos para un gran número de rasgos 'del tipo datos'
que pueden aparecer casi en cualquier lugar en casi cualquier tipo de texto.
Estos rasgos pueden ser interesantes en varias disciplinas; todos ellos hacen
referencia a objetos externos del propio texto, como nombres de personas y
lugares, números y fechas. También ofrecen problemas para muchas
aplicaciones de procesamiento de lenguaje natural (NLP) debido a la variedad de
formas en que se pueden presentar dentro de un texto. Los elementos descritos
aquí, haciendo estos rasgos explícitos, reducen la complejidad
del procesamiento de textos que los contengan.
11.1 Nombres y
cadenas de referencia
Una
cadena de referencia es una frase que hace referencia a alguna
persona, lugar, objeto, etc. Se ofrecen dos elementos para marcar estas
cadenas:
- <rs>
- contiene un nombre general o cadena de referencia.
Tiene los siguientes atributos:
- type
- indica más específicamente el objeto al
que hace referencia en la cadena de referencia. Tiene como posibles valores
person , place , ship , element , etc.
- <name>
- contiene un nombre propio o una frase nominal. Tiene
los siguientes atributos:
- type
- indica la clase del objeto que se nombra en la
frase.
El
atributo type se usa para distinguir entre (por ejemplo) nombres de
personas, lugares y organizaciones, donde esto sea posible:
<q>My dear <rs type=person>Mr. Bennet</rs>, </q>
said his lady to him one day, <q>have you heard
that <rs type=place>Netherfield Park</rs> is let
at last?</q>
It being one of the principles of the
<rs type=organization>Circumlocution Office</rs> never,
on any account whatsoever, to give a straightforward answer,
<rs type=person>Mr Barnacle</rs> said, <q>Possibly.</q>
Como el
siguiente ejemplo muestra, el elemento <rs> puede usarse para
indicar cualquier referencia a una persona, lugar, etc, no necesariamente una
en forma de nombre propio o frase nominal.
<q>My dear <rs type=person>Mr. Bennet</rs>,</q>
said <rs type=person>his lady</rs> to him
one day...
El
elemento <name>, por el contrario, está pensado para el
caso de cadenas de referencia que consisten únicamente en nombres
propios; puede usarse del mismo modo que el elemento <rs>, o
anidado dentro de una cadena de referencia que contengua una mezcla de nombres
propios y comunes.
Etiquetar
algo simplemente como un nombre no suele ser suficiente para procesar
automáticamento los nombres de persona en la forma canónica
normalmente requerida para propósitos de referencia. El nombre, tal como
aparece en el texto puede estar mal escrito, poco claro o incompleto.
Además, algunos nombres llevan palabras como van o de
la, que pueden ser incluidos o no como parte del nombre, en función
del idioma y del país de origen.
Los
siguientes atributos aparecen en estos elementos y otros parecidos para ayudar
a solucionar estos problemas:
- key
- ofrece un identificador alternativo para el objeto
que se nombra, como una entrada de una base de datos.
- reg
- da una forma normalizada o regularizada del nombre
usado.
El
atributo key puede ser útil para juntar todas las referencias a
la misma persona o lugar que aparezcan a lo largo de todo el documento:
<q>Pues entonces</q> -añadió mi <rs type=person key=ISA>ama</rs>-,
<q>pueden ver la función desde la muralla de
<rs type=place key=CADIZ>Cádiz</rs>; pero lo que es en los barquitos...
Digo que no y que no, <rs type=person key=ALONSO>Alonso</rs>.</q>
Este uso
debe distinguirse del caso del atributo reg (regularización),
que ofrece un medio de estandarizar la cadena de referenica como se muestra
abajo:
Nació el Excmo. Sr. don <name type=person key=JOVELL reg='Jovellanos, Gaspar de'>
Gaspar de Jovellanos</name> el día 5 de enero de 1744 en la villa de
<name key=GIJ type=place>Gijón</name>, que descuella entre las demás del
<name key=AST type=place>principado de Asturias</name>...
Es posible
un etiquetado más detallado de los componentes de los nombres propios
utilizando el conjunto de etiquetas de los nombres y fechas.
11.2 Fechas y
horas
Las
siguientes son etiquetas para un marcado más detallado de horas y
fechas:
- <date>
- contiene una fecha en cualquier formato. Tiene los
siguientes atributos:
- calendar
- indica el sistema o calendario en el que está
la fecha.
- value
- da el valor de la fecha de forma estandarizada, suele
ser aaaa-mm-dd.
- <time>
- contiene una frase que define una hora del día
en cualquier formato. Tiene los siguientes atributos:
- value
- da el valor de la hora de forma estándar.
El
atributo value especifica una forma normalizada de la fecha u hora,
usando un formato reconocido como el ISO 8601. Fechas u horas parciales (p.ej.
"1990", "septiembre de 1990") se pueden expresar simplemente omitiendo una
parte del valor dado; por otra parte, fechas u horas imprecisas (por ejemplo
"principios de agosto", "entre las diez y las doce") pueden expresarse como
rangos de fecha u hora. Si el fin del rango de la fecha u hora se sabe con
certeza (por ejemplo, "poco antes de 1230", "unos días después de
San José") se puede usar el atributo exact para
especificarlo.
Ejemplos:
<date value='1980-02-21'>21 feb 1980</date>
<date value='1990'>1990</date>
<date value='1990-09'>septiembre de 1990</date>
Y jueves, que fueron <date value='1405-12-25'>
veinte y cinco de Diciembre, día de Pascua, que
comenzó el año del Señor de mil y cuatrocientos
y cinco años</date>, partieron de aquí.
<p>Él entraba en la huerta a las
<time value='17:00'>cinco de la tarde</time>,
y había noches que se estaba hasta las
<time value='22:00'>diez.</time></p>
11.3
Números
Los
números se pueden escribir tanto con letras como con dígitos (veintiuno , xxi , y 21 ) y su representación depende del idioma (p.ej. el 5th
en inglés es 5. en griego; 123,456.78 en inglés
equivale a 123.456,78 en español). En las aplicaciones de
procesamiento de lenguaje natural o traducción automática, suele
ser útil distinguirlos de otras partes más "léxicas" del
texto. En otras aplicaciones, la posibilidad de dar un valor del número
de forma estandarizada es muy importante. El elemento <num>
ofrece esta posibilidad:
- <num>
- contiene un número, escrito en cualquier
forma. Tiene los siguientes atributos:
- type
- indica el tipo de valor numérico. Se sugieren
los siguientes valores:
fraction , ordinal (para los números ordinales, p.ej. "21º"), percentage , y cardinal (un número absoluto, p.ej. "21", "21,5", etc.)
- value
- ofrece el valor del número en un forma
estándar.
Por
ejemplo:
<num value='33'>xxxiii</num>
<num type=cardinal value='21'>veintiuno</num>
<num type=percentage value='10'>diez por ciento</num>
<num type=percentage value='10'>10%</num>
<num type=ordinal value='5'>5º</num>
11.4
Abreviaturas y su desarrollo
Del mismo
modo que los nombres, fechas y números, las abreviaturas se pueden
transcribir como aparecen o desarrolladas; pueden dejarse sin marcar o
etiquetarlas usando el siguiente elemento:
- <abbr>
- contiene una abreviatura de cualquier tipo. Tiene los
siguientes atributos:
- expan
- da el desarrollo de la abreviatura.
- type
- permite que el etiquetador clasifique la abreviatura
de acuerdo a algún tipo de clasificación. Posibles valores son
contraction, suspension, brevigraph,
superscription, o acronym. El atributo type
también puede tener valores como title (para títulos de
tratamiento), geographic, organization, etc., que describen
la naturaleza naturaleza del objeto referido.
El
elemento <abbr> es útil para diferenciar unidades
semiléxicas como los acrónimos o la jerga:
We can sum up the above discussion as follows: the identity of a
<abbr>CC</abbr> is defined by that calibration of values which
motivates the elements of its <abbr>GSP</abbr>;
Every manufacturer of <abbr>3GL</abbr> or <abbr>4GL</abbr>
languages is currently nailing on <abbr>OOP</abbr> extensions
El
atributo type puede usarse para distinguir tipos de abreviatura por su
función, y el atributo expan puede usarse para aportar el
desarrollo:
<name>El <abbr type=title expan='Doctor'>Dr.</abbr>
<abbr type=initial expan='Marilyn'>M.</abbr>
Deegan</name>
es el Director del
<abbr expan='Computers in Teaching Initiative' type=acronym>
CTI</abbr> Centre for Textual Studies.
Este
elemento también es especialmente útil en la transcripción
de materiales manuscritos donde suele haber abreviaturas.
11.5
Direcciones
El
elemento <address> se utiliza para marcar direcciones postales
de cualquier tipo. Contiene uno o más elementos
<addrLine>, uno por cada línea de la dirección.
- <address>
- contiene una dirección postal o de otro tipo,
por ejemplo de una editorial, una organización o persona.
- <addrLine>
- contiene una línea de una dirección
postal o de otro tipo.
Este es un
sencillo ejemplo:
<address>
<addrLine>Biblioteca Virtual Miguel de Cervantes</addrLine>
<addrLine>Edificio de Institutos</addrLine>
<addrLine>Universidad de Alicante</addrLine>
<addrLine>Carretera de Alicante a San Vicente s/n</addrLine>
<addrLine>E-03080 Alicante</addrLine>
<addrLine>España)</addrLine>
</address>
Las
diferentes partes de una dirección pueden ser también
diferenciadas por medio del elemento <name> visto más
arriba (apartado 11.1 Nombres y cadenas de
referencia).
<address>
<addrLine>Biblioteca Virtual Miguel de Cervantes</addrLine>
<addrLine>Edificio de Institutos</addrLine>
<addrLine>Universidad de Alicante</addrLine>
<addrLine>Carretera de Alicante a San Vicente s/n</addrLine>
<addrLine><name type=city>Alicante</name> E-03080</addrLine>
<addrLine><name type=country>España</name></addrLine>
</address>
12
Listas
El
elemento <list> se utiliza para marcar cualquier tipo de
lista. Una lista es una secuencia de elementos de texto, que pueden
estar ordenadas, desordenadas, o puede ser un glosario. Cada elemento puede ir
precedido por un título (<label>)de elemento (en un
glosario, este título es el término definido):
- <list>
- contiene una secuencia de elementos organizada como
una lista. Tiene los siguientes atributos:
- type
- describe la forma de la lista. Se recomiendan los
siguientes valores:
ordered , bulleted (para las listas con elementos numerados o con letras, y listas con
puntos, guiones, etc., respectivamente), gloss (para listas consistentes en un conjunto de términos
técnicos, cada uno marcado con el elemento <label> y
acompañado por una definición o explicación marcada con un
<item>), y simple (para las listas con elementos que no llevan números o
puntos).
- <item>
- contiene un componente de una lista.
- <label>
- contiene el título asociado al elemento de una
lista; en glosarios, indica el término definido.
Cada
elemento de la lista se etiqueta con <item>. El primer
<item> puede ir opcionalmente precedido de un
<head>, que proporciona el título a la lista. La
numeración de la lista puede omitirse (y luego reconstruirse, si se
desea), usando el atributo n de cada elemento (<item>),
o etiquetando el número como contenido del elemento
<label> (esto es más raro). Los siguientes ejemplos son
en este sentido equivalentes:
<list>
<head>Una pequeña lista</head>
<item>Primer elemento de la lista.</item>
<item>Segundo elemento de la lista.</item>
<item>Tercer elemento de la lista.</item>
</list>
<list>
<head>Una pequeña lista</head>
<item n=1>Primer elemento de la lista.</item>
<item n=2>Segundo elemento de la lista.</item>
<item n=3>Tercer elemento de la lista.</item>
<list>
<head>Una pequeña lista</head>
<label>1</label><item>Primer elemento de la lista.</item>
<label>2</label><item>Segundo elemento de la lista.</item>
<label>3</label><item>Tercer elemento de la lista.</item>
</list>
No se debe
mezclar los diferentes estilos de marcado en la misma lista.
Una
sencilla tabla de dos columnas puede tratarse como un glosario,
etiquetado con <list type=gloss>. Aquí, cada elemento
item contiene un término y una definición o
glosa, marcada con <label> e <item>
respectivamente. Estos corresponden a los elementos <term> y
<gloss>, que pueden aparecer en cualquier sitio en un texto en
prosa.
<list type=gloss>
<head>Vocabulary</head>
<label lang=enm>nu</label> <item>now</item>
<label lang=enm>lhude</label> <item>loudly</item>
<label lang=enm>bloweth</label> <item>blooms</item>
<label lang=enm>med</label> <item>meadow</item>
<label lang=enm>wude</label> <item>wood</item>
<label lang=enm>awe</label> <item>ewe</item>
<label lang=enm>lhouth</label> <item>lows</item>
<label lang=enm>sterteth</label> <item>bounds, frisks</item>
<label lang=enm>verteth</label> <item lang=lat>pedit</item>
<label lang=enm>murie</label> <item>merrily</item>
<label lang=enm>swik</label> <item>cease</item>
<label lang=enm>naver</label> <item>never</item>
</list>
En los
casos en que la estructura interna de los elementos de la lista es más
compleja, puede ser preferible tratar la lista como una tabla. En
estos casos hay un conjunto de etiquetas TEI adicional para un etiquetado
más específico.
Las listas
de cualquier tipo pueden, por supuesto, pueden anidarse dentro de elementos de
lista en cualquier nivel de profundidad. Aquí, por ejemplo, un glosario
contiene dos elementos y cada uno de ellos es a su vez una sencilla lista:
<list type=gloss><label>EVIL</label>
<item><list type=simple>
<item>I am cast upon a horrible desolate island, void
of all hope of recovery.</item>
<item>I am singled out and separated as it were from
all the world to be miserable.</item>
<item>I am divided from mankind &mdash a solitaire; one
banished from human society.</item>
</list> <!-- end of first nested list --></item>
<label>GOOD</label>
<item><list type=simple>
<item>But I am alive; and not drowned, as all my
ship's company were.</item>
<item>But I am singled out, too, from all the ship's
crew, to be spared from death...</item>
<item>But I am not starved, and perishing on a barren place,
affording no sustenances....</item>
</list><!-- end of second nested list --></item>
</list><!-- end of glossary list -->
Una lista
no tiene necesariamente que ser mostrada con formato de lista. Por ejemplo:
On those remote pages it is written that animals are
divided into <list rend="run-on"><item n='a'>those that belong to the
Emperor,<item n='b'> embalmed ones, <item n='c'> those
that are trained, <item n='d'> suckling pigs, <item n='e'>
mermaids, <item n='f'> fabulous ones, <item n='g'> stray
dogs, <item n='h'> those that are included in this
classification, <item n='i'> those that tremble as if they
were mad, <item n='j'> innumerable ones, <item n='k'> those
drawn with a very fine camel's-hair brush, <item n='l'>
others, <item n='m'> those that have just broken a flower
vase, <item n='n'> those that resemble flies from a
distance.</list>
Las listas
de elementos bibliográficos deben ser etiquetadas utilizando el elemento
<listBibl>, descrito en el siguiente apartado.
13 Citas
bibliográficas
A menudo
es útil distinguir las citas bibliográficas cuando aparecen en
textos transcritos para la investigación, en el caso en que tengan un
formato apropiado en el texto impreso. Para este propósito existe el
elemento <bibl>:
- <bibl>
- contiene una cita bibliográfica no muy
estructurada en la que sus componentes pueden estar explícitamente
etiquetados o no.
En los
casos en que deban distinguirse los componentes de una referencia
bibliográfica, debemos usar los siguientes elementos. Puede ser
útil marcar como mínimo aquellas partes (como los títulos
de artículos, libros y periódicos) que requieren de un formato
especial. Los otros elementos se proveen para aquellos casos en que sea
interesante destacas estos detalles.
- <author>
- en una referencia bibliográfica, contiene el
nombre del autor(es) de una obra o la declaración de
responsabilidad primaria de cualquier elemento bibliográfico.
- <biblScope>
- define el ámbito de una referencia
bibliográfica, por ejemplo como una lista de números de
página o una subdivisión de una obra mayor.
- <date>
- contiene una fecha en cualquier formato.
- <editor>
- declaración de responsabilidad
secundaria de un elemento bibliográfico, por ejemplo el nombre de una
persona, institución u organización (o varios) que
desempeñan la función de editor, compilador, traductor, etc.
Tiene los siguientes atributos:
- role
- especifica la naturaleza de la responsabilidad
intelectual. Posibles valores son: translator, compiler,
illustrator, etc.; el valor por defecto es editor.
- <imprint>
- agrupa información relativa a la
publicación o distribución de un elemento
bibliográfico.
- <publisher>
- da el nombre de la organización responsable de
la edición o distribución de un elemento
bibliográfico.
- <pubPlace>
- contiene el nombre del lugar donde se publicó
un elemento bibliográfico.
- <series>
- contiene información sobre la serie en que
apareció un libro u otro elemento bibliográfico.
- <title>
- contiene el título de una obra, ya sea
artículo, libro, periódico o serie, incluyendo otros
títulos alternativos o subtítulos. Tiene los siguientes
atributos:
- type
- dice de algún modo el tipo de título,
por ejemplo main (principal), subordinate (secundario), etc.
- level
- indica el nivel (level) bibliográfico
o clase de título. Los valores posibles están descritos en el
apartado 6.1 Cambios de
tipografía, etc.
Por
ejemplo, la siguiente nota editorial podría transcribirse
así:
He was a member of Parliament for Warwickshire
in 1445, and died March 14, 1470 (according to Kittredge, Harvard
Studies 5. 88ff).
He was a member of Parliament for Warwickshire in 1445, and died
March 14, 1470 (according to <bibl><author>Kittredge</author>,
<title>Harvard Studies</title> <biblScope>5. 88ff</biblScope></bibl>).
Para las
listas de citas bibliográficas, se debe usar el elemento
<listBibl>, que puede contener varios elementos
<bibl>. Por ejemplo, ver la lista en el apartado
22 Referencias.
14 Tablas
Las tablas
representan un gran reto para cualquier sistema de procesamiento de textos,
pero las tablas sencillas aparecen en tantos textos que, incluso en el conjunto
simplificado de etiquetas TEI que se presenta aquí, es necesario su
marcado. Podemos utilizar los siguientes elementos para este
propósito:
- <table>
- contiene texto mostrado en forma de tabla, con filas
y columnas. Tiene los siguientes atributos:
- rows
- indica el número de filas que tiene la
tabla.
- cols
- indica el número de columnas que tiene cada
fila de la tabla.
- <row>
- contiene una fila de una tabla. Tiene los siguientes
atributos:
- role
- indica el tipo de información contenida en las
celdas de dicha fila. Se sugieren los siguientes valores:
label para títulos o información descriptiva, y data para los valores reales de los datos.
- <cell>
- contiene una celda de una tabla. Tiene los siguientes
atributos:
- role
- indica el tipo de información contenida en la
celda. Se sugieren los siguientes valores:
label para títulos o información descriptiva, y data para los valores reales de los datos.
- cols
- indica el número de columnas que ocupa esa
celda.
- rows
- indica el número de filas que ocupa esa celda.
Por
ejemplo, Defoe usa tablas de mortalidad como la siguiente en Journal of
the Plague Year para mostrar el aumento y el descenso de la
epidemia:
<p>It was indeed coming on amain, for the burials that
same week were in the next adjoining parishes thus:—
<table rows=5 cols=4>
<row role='data'>
<cell role='label'>St. Leonard's, Shoreditch</cell>
<cell>64</cell> <cell>84</cell> <cell>119</cell></row>
<cell role='label'>St. Botolph's, Bishopsgate</row>
<cell>65</cell> <cell>105</cell> <cell>116</cell></row>
<cell role='label'>St. Giles's, Cripplegate</row>
<cell>213</cell> <cell>421</cell> <cell>554</cell></row>
</table>
<p>This shutting up of houses was at first counted a very cruel
and unchristian method, and the poor people so confined made
bitter lamentations. ... </p>
15
Imágenes y Gráficos
No todos
los componentes de un documento son necesariamente textuales. Muchos textos
textos suelen a menudo contener diagramas o ilustraciones y hay otros muchos en
los que las imágenes y el texto están inseparablemente mezclados,
o los recursos electrónicos en los que ambos (texto e imagen) se
complementan.
El
etiquetador puede simplemente indicar la presencia de un gráfico dentro
del texto, posiblemente con una breve descripción de su contenido,
usando los elementos descritos en este apartado. Estos mismos elementos se
pueden usar también para insertar versiones digitalizadas del
gráfico en un documento electrónico.
- <figure>
- marca el punto en el que debe ser insertado un
gráfico en un documento. Tiene los siguientes atributos:
- entity
- el nombre de una entidad del sistema predefinida que
contenga una versión digitalizada del gráfico a insertar.
- <figDesc>
- contiene una descripción textual de la
apariencia o contenido de un gráfico, para usarla cuando se documente
una imagen sin mostrarla.
Cualquier
información textual acompañada de un gráfico, como un
título o encabezamiento, puede ser incluida dentro del propio elemento
<figure>, en un <head> y uno o más
elementos <p>, tal y como aparecería cualquier texto
dentro de un gráfico. Es muy recomendable que se dé una
descripción de la imagen, como contenido del elemento
<figDesc>, para aquellas aplicaciones que no pueden mostrar la
imagen y para que el documento sea accesible para los lectores discapacitados
visuales. (Este texto no suele considerarse parte del propio documento.)
El uso
más sencillo de estos elementos es marcar la posición del
gráfico, como en este ejemplo:
<pb n=412/>
<figure></figure>
<pb n=413/>
(Fíjese que la etiqueta de
cierre no puede omitirse, incluso aunque el elemento no tenga contenido).
Generalmente, un gráfico tendrá, al menos, un título
identificativo que debe etiquetarse con el elemento <head>.
También es conveniente incluir una breve descripción de la
imagen, como en el siguiente ejemplo:
<figure>
<head>Don Quijote y los molinos</head>
<figdesc>Grabado que muestra la lucha que mantuvo
Don Quijote con unos molinos de viento.</figdesc>
</figure>
Cuando
está disponible una versión digitalizada del gráfico, es
preferible incluirla en el punto apropiado dentro del documento. Los elementos
graficos como las fotografías son típicamente almacenadas en
entidades (archivos) separados de aquellos que contienen el texto del documento
y utilizan una notación (formato de almacenamiento) diferente. La DTD
del TEI Lite soporta gráficos codificados utilizando los
estándares CGM, TIFF o JPEG bajo los nombre de notación SGML
cgm, tiff y jpeg. Sin embargo, otras notaciones
puden usarse si se añade a la DTD una apropiada declaración de
NOTACIÓN; para más detalles de la declaración de NOTATION de SGML, ver el capítulo sobre tablas, fórmulas y
gráficos en el TEI P3 o cualquier otro trabajo de referencia sobre
SGML.
Cualquier
formato que se use para codificar la imagen debe ser incluido dentro del
documento del mismo modo. El primer paso es declarar una entidad SGML de un
tipo concreto, que especifique un nombre para la entidad, un identificador
externo (p. ej., un nombre de fichero) para ella y la notación usada.
Por ejemplo, teniendo en cuenta que una imagen digitalizada de "Fuenteovejuna"
fue guardada en formato TIFF en el archivo fuente.tff, sería
necesaria una declaración de entidad como esta:
<!ENTITY fuentePic SYSTEM "fuente.tff" NDATA tiff>
Todas
estas declaraciones deben procesarse antes del propio documento SGML; con la
DTD del TEI Lite esto puede cumplirse incluyéndolas en un archivo
llamado litedecls.ent o cualquier otro archivo que tenga el
identificador público -//TEI U5-1995//DTD TEI Lite 1.0
Extensions//EN.
Con la
declaración de arriba vigente, todo lo necesario para incluir la imagen
digital en el punto apropiado del documento es insertar un valor en el atributo
entity del elemtno <figure>:
<figure entity=fuentePic>
<head>Fuenteovejuna</head>
<figdesc>Portada de la primera edición de Fuenteovejuna.</figdesc>
</figure>
16
Interpretación y análisis
A menudo
se dice que el marcado es un modo de interpretación o análisis.
Aunque es difícil, o tal vez imposible, distinguir entre
información 'objetiva' y 'subjetiva' de un modo global, sigue siendo
cierto que los juicios sobre 'subjetiva' se consideran más
controvertidos que los juicios sobre 'objetiva'. Por tanto, muchos estudiosos
prefieren aportar interpretaciones únicamente si es posible indicar al
lector que estas se consideran más abiertas para discutir que el resto
del marcado. Esta sección describe algunos de los elementos provistos
por el esquema del TEI para hacer frente a esta necesidad.
16.1 Oraciones
ortográficas
Las
interpretaciones aparecen normalmente a lo largo de todo el texto, sin respetar
otras unidades estructurales. Un paso previo muy útil para llevar a cabo
una interpretación exhaustiva es dividir el texto en unidades
identificables más pequeñas, cada una de las cuales puede llevar
una nombre o rótulo para su uso como un tipo de 'referencia
canónica'. Para facilitar estos usos, estas unidades no se pueden cruzar
ni anidar entre sí. Pueden estar convenientemente representadas usando
este elemento:
- <s>
- identifica una "unidad-oración"
(s-unit) en un documento, para establecer un sencillo esquema
canónico de referencia que cubra todo el texto. Tiene los siguientes
atributos:
- type
- categoriza la unidad (p.ej.: declarative,
interrogative, etc.)
Como su
nombre sugiere, el elemento <s> no es muy usado (en aplicaciones
lingüísticas al menos) para marcar oraciones
ortográficas, es decir, unidades definidas por rasgos
ortográficos como la puntuación. Por ejemplo, el fragmento de
Los Apostólicos visto al principio podría dividirse
en unidades-oración así:
<pb n='177'>
<div1 type=capítulo n='XVIII'>
<p><s n=001>Veamos ahora lo que pasó aquella noche.</s>
<s n=002>Jenara tomó asiento en el despacho del señor
D. Felicísimo, y Pipaón, acercándose a este, le habló
un poco al oído para contarle lo que a la dama le pasaba.</s>
<s n=003>A cada dos palabras que oía, D. Felicísimo articulaba
una especie de chillido, un ji ji, que más tenía de suspiro
que de interjección y que al mismo tiempo expresaba hipo y
burla.</s></p> ...
Las
etiquetas de cierre son son estrictamente necesarias, ya que los elementos
<s> no pueden anidarse: el comienzo de un elemento
<s> implica que el anterior ha acabado. Cuando se etiquetan las
unidades-oración como arriba, es aconsejable etiquetar todo el texto de
arriba a abajo, para que cada palabra analizada esté contenida en un
elemento <s>, cuyo identificador pueda ser por tanto usado para
especificar una única referencia para esta. Si los identificadores
usados son únicos en el documento, podría preferentemente usarse
el atributo id al n usado en el ejemplo anterior.
16.2 Elementos
genéricos de interpretación
El
elemento más genérico de segmentación <seg>
ha sido introducido para identificar otros aspectos no marcados de referencias
cruzadas y de enlaces hipertextuales (ver sección
8 Referencias cruzadas y enlaces);
identifica aquellos fragmento de texto de nivel oracional a los que el
etiquetador puede asignar un type específico para el usuario,
así como un identificador único; por tanto, puede usarse para
etiquetar rasgos textuales para los que no se explicita nada en las Normas
publicadas del TEI.
Por
ejemplo, las Normas no recogen ningún elemento
<apostrophe> para marcar partes de un texto literario en el que
el narrador se dirige al lector (u oyente) directamente. Un enfoque
podría ser referirse a estas como casos del elemento <q>,
distinguiéndolos de otros con un valor apropiado en el atributo
who. Una posible solución más sencilla y general
sería usar el elemento <seg> de este modo:
<div1 type=chapter n='38'>
<p><seg type='apostrophe'>Lector, me casé con él.</seg>
Tuvimos una boda tranquila: ...
El
atributo type del elemento <seg> puede tomar cualquier
valor, y por tanto puede usarse para indicar cualquier tipo de fenómeno
de nivel oracional; es conveniente indicar los valore usados y su significado
en el header.
Un
elemento <seg> de un tipo (a diferencia del elemento
<s>) puede estar anidado dentro de un elemento
<seg> del mismo o diferente tipo. Esto permite representar
estructuras complejas; hay algunos ejemplos en la sección
8.3 Atributos de enlace. Sin embargo,
debido a que debe respetar el requisito del SGML de que los elementos han de
estar debidamente anidados y no pueden cruzarse entre sí, no puede
cumplir el requisito común para asociar una interpretación con
segmentos arbitrarios de un texto que pueden ignorar la jerarquía del
documento. También requiere que la propia interpretación
esté representada en un único valor del atributo
type.
No se
puede aplicar ninguna restricción al elemento <interp>,
que ofrece potentes características para el etiquetado de
información interpretativa compleja de un modo relativamente
directo.
- <interp>
- proporciona una anotación interpretativa que
puede estar unida a un fragmento del texto. Tiene los siguientes
atributos:
- value
- identifica el rasgo específico que se
anota.
- resp
- indica quién es el responsable de la
interpretación.
- type
- indica qué tipo de rasgo aparece en el
fragmento. Posibles valores son
image , character , theme , allusion , o el nombre un tipo discursivo en concreto cuyos rasgos son
identificados.
- inst
- apunta ejemplos del análisis o
interpretación representada en el elemento.
- <interpGrp>
- recoge diferentes etiquetas <interp>.
Estos
elementos permiten que el etiquetador especifique tanto la clase de
interpretación y el caso particular que implica esa
interpretación. Por tanto, mientras con <seg> sólo
se puede indicar que algo es un apóstrofe, con <interp>
se puede decir que es un caso (apóstrofe) de una clase superior (figuras
retóricas).
Además,
<interp> es un elemento vacío, que debe estar enlazado al
fragmento al que hace referencia bien por medio de un atributo ana
(visto en la sección 8.3 Atributos de
enlace) o por medio de su propio atributo inst. Esto significa que
se puede representar cualquier tipo de análisis, sin necesidad de
respetar la jerarquía de los documentos SGML, y también que
facilita la agrupación de los análisis de un mismo tipo. Para
esto último existe el elemento específico
<interpGrp>.
Por
ejemplo, imaginemos que deseamos marcar aspectos tan diferentes de un texto
como los temas o el asunto, figuras retóricas y la situación de
cada escena de la narración. Se podrían asociar diferentes partes
del pasaje de Los Apostólicos por ejemplo, con algunas
figuras retóricas; con las referencias a temas sobre amistad, amigos,
toros, y cortesía; y con escenas situadas en el despacho, la plaza de
toros...
Estas
interpretaciones pueden colocarse en cualquier lugar del elemento
<text>; sin embargo, es recomendable ponerlas todas juntas en un
mismo lugar (p. ej.: una sección separada en el material del
front o del back), como en este ejemplo:
<back>
<div1 type='Interpretations'>
<interp id='fig-apos' resp='LB, MSM'
type='figure of speech' value='apostrophe'>
<interp id='fig-hyp' resp='LB, MSM'
type='figure of speech' value='hyperbole'>
<!-- ... -->
<interp id='set-church' resp='LB, MSM'
type='setting' value='church'>
<!-- ... -->
<interp id='ref-church' resp='LB, MSM'
type='reference' value='church'>
<interp id='ref-serv' resp='LB, MSM'
type='reference' value='servants'>
<!-- ... -->
</div>
La clara
redundancia de este etiquetado puede reducirse considerablemente usando el
elemento <interpGrp> par agrupar todos los elementos
<interp> que comparten valores comunes en los atributos. Por
ejemplo:
<back>
<div1 type='Interpretations'>
<interpGrp type='figure of speech' resp='LB, MSM'>
<interp id='fig-apos' value='apostrophe'>
<interp id='fig-hyp' value='hyperbole'>
<interp id='fig-meta' value='metaphor'>
<!-- ... -->
</interpGrp>
<interpGrp type='scene-setting' resp='LB, MSM'>
<interp id='set-church' value='church'>
<interp id='set-kitch' value='kitchen'>
<interp id='set-unspec' value='unspecified'>
<!-- ... -->
</interpGrp>
<interpGrp type='reference' resp='LB, MSM'>
<interp id='ref-church' value='church'>
<interp id='ref-serv' value='servants'>
<interp id='ref-cook' value='cooking'>
<!-- ... -->
</interpGrp>
</div>
Una vez
que se han definido estos elementos de interpretación, pueden enlazarse
con las partes del texto a las que hacen referencia de una o dos formas. El
atributo ana es el apropiado y puede usarse en cualquier elemento:
<div1 type=chapter n='38'>
<p id='P38.1' ana='set-church set-kitch'>
<s id=P38.1.1 ana='fig-apos'>Reader, I married him.</s>
...
En este
ejemplo como el párrafo tiene dos escenarios (en la iglesia y en la
cocina), se dan identificadores para ambos.
De otro
modo, los elementos <interp> pueden apuntar a todas las partes
del texto a las que hace referencia, usando el atributo inst:
<interp id='fig-apos' type='figure of speech' resp='LB, MSM'
value='apostrophe' inst='P38.1.1'>
<!-- ... -->
<interp id='set-church' type='scene-setting' value='church'
inst='P38.1' resp='LB, MSM'>
<interp id='set-kitchen' type='scene-setting' value='kitchen'
inst='P38.1' resp='LB, MSM'>
<!-- ... -->
El
<interp> no está limitado a un tipo particular de
análisis. El análisis literario mostrado arriba es sólo
una posibilidad; se podría también usar <interp>
para capturar un análisis lingüístico de una parte del
habla. Por ejemplo, la oración dada de ejemplo en la sección
8.3 Atributos de enlace implica un
análisis lingüístico que podría estar representado
así:
<interp id=NP1 type=pos value='frase nominal, singular'>
<interp id=VV1 type=pos value='verbo conjugado, presente singular'>
...
17
Documentación técnica
Aunque el
objetivo de este documento es el uso del esquema del TEI para el etiquetado de
'pre-electrónicos' documentos existentes, este mismo esquema puede
usarse también para el etiquetado de nuevos documentos. En la
preparación de nuevos documentos (como este), el SGML tiene mucho que
recomendar: la estructura del documento puede estar claramente representada y
el mismo texto electrónico puede ser reutilizado para muchos
propósitos por ejemplo, para proporcionar tanto hipertextos o
versiones navegables en internet y versiones de imprimibles bien formateadas a
partir de una única fuente SGML.
Para
facilitar esto, un pequeño número de elementos adicionales se
incluyen en el TEI Lite como extensiones de la principal DTD del TEI, para
marcar rasgos concretos de documentos técnicos en general y documentos
relativos al SGML en particular.
17.1 Otros
elementos para documentos técnicos
Los
siguientes elementos pueden usarse para marcar rasgos concretos de documentos
técnicos:
- <eg>
- contiene un único pequeño ejemplo de un
tema técnico tratado, p. ej., un fragmento de código o una
muestra del etiquetado SGML.
- <code>
- contiene un pequeño fragmento de código
en un lenguaje formal (a menudo un lenguaje de programación).
- <ident>
- contiene un identificador de algún tipo, p.
ej., un nombre variable o el nombre de un elemento o atributo SGML.
- <gi>
- contiene un tipo especial de identifcador: un
identificador genérico de SGML o el nombre de un elemento.
- <kw>
- contiene una palabra clave en un lenguaje
formal.
- <formula>
- contiene una fórmula matemática o
química, opcionalmente presentada en alguna notación que no sea
SGML. Tiene los siguientes atributos:
- notation
- especifica la notación usada para representar
el cuerpo de la fórmula. El valor por defecto es
tex , que quiere decir que la fórmula está representada
según el sistema de TeX.
El
siguiente ejemplo muestra cómo estos elementos pueden usarse para
etiquetar un fragmento de un tutorial sobre el lenguaje de programación
Fortran:
<p>It is traditional to introduce a language with a program like the
following:
<eg>
CHAR*12 GRTG
GRTG = 'HELLO WORLD'
PRINT *, GRTG
END
</eg></p>
<p>This simple example first declares a variable <ident>GRTG</ident>, in
the line <code>CHAR*12 GRTG</kw>, which identifies <ident>GRTG</ident>
as consisting of 12 bytes of type <kw>CHAR</kw>. To this variable,
the value <mentioned>HELLO WORLD</mentioned>
is then assigned. This is followed by a <kw>PRINT</kw> statement and an
<kw>END</kw> statement.
Una
aplicación de formateo, como el texto de arriba, puede utilizarse para
mostrar ejemplos apropiadamente (p.ej., para mantener fines de línea o
usar una fuente distinta). Del mismo modo, el uso de las etiquetas
<ident> y <kw> facilitan mucho al
construcción de un índice útil.
El
elemento <formula> se debe usar para incluir una fórmula
matemática o química presentada en el texto como un elemento
diferente. Dado que las fórmulas normalmente incluyen una gran variedad
de rasgos tipográficos especiales que no suelen aparecer en los textos
corrientes, será normalmente necesario presentar el cuerpo de la
fórmula en una notación especializada. La notación usada
debe especificarse en el atributo notation, como en el siguiente
ejemplo:
<formula notation=tex>
\(E = mc^{2}\)
</formula>
La
notación Tex está predefinida por la DTD del TEI Lite;
se pueden usar otras notaciones si se desea, pero primero deben estar definidas
por la declaración notation en la DTD.
Está permitida casi
cualquier secuencia de caracteres en el cuerpo de un elemento
<formula>, en la medida que afecta a los procesadores de SGML.
La información la pasa sin cambios por un parser a cualquier
aplicación que haya sido asociada con la notación especificada.
La única excepción a esta regla es que el parser
reconocerá cualquier cosa que se parezca a las etiquetas de comienzo y
fin de SGML, p.ej., el carácter 'menos que' (<) seguido
inmediatamente por una barra (/) y una letra. El siguiente ejemplo
imaginario causaría una secuencia confusa de errores del
parser de SGML:
<formula notation=tex>
\(E = mc^{2}</a\)
</formula>
Afortunadamente, la secuencia </ no es probable que aparezca en la mayoría de las notaciones
matemáticas: si apareciera, se deberían seguir algunos pasos
especiales que están más allá del objetivo de este
documento (ver las Normas completas para más información).
Este
problema existe de forma más aguda cuando el etiquetado SGML es el
objeto de discusión en un documento técnico, propiamente
etiquetado en SGML. En tal documento, es esencial distinguir claramente el
marcado SGML que aparece en los ejemplos del marcado del propio documento, y es
bastante probable la aparición de etiquetas de cierre. La
solución más general es marcar el cuerpo de cada ejemplo SGML
como información que no debe ser reconocida por el parser como parte del
marcado SGML. Esto se consigue insertádola de una construcción
SGML especial llamada CDATA marked section, como en este ejemplo:
<p>Una lista debe etiquetarse así:
<eg><![ CDATA [
<list>
<item>Primer elemento de la lista</item>
<item>Segundo elemento</item>
</list>
]]>
</eg>
El elemento <gi>list</gi> consiste en una serie
de elementos <gi>item</gi>.
El
elemento <list> usado en el ejemplo anterior no se considera
parte del propio documento, porque está insertado en una marked
section (que empieza con la declaración especial de marcado <![ CDATA [ , y acaba con ]]> ).
Nótese también el
uso del elemento <gi> para etiquetar las referencias a los
nombres de elementos SGML (o generic identifiers) dentro del cuerpo
del texto.
17.2 Divisiones
generadas
Los
sistemas más modernos de producción de documentos tienen la
habilidad de generar automáticamente secciones enteras como una tabla de
contenidos o un índice. El esquema del TEI Lite proporciona un elemento
para marcar la posición en la que tal sección generada debe
aparecer.
- <divGen>
- indica el lugar en el que debe aparecer una
división textual generada automáticamente por una
aplicación de procesamiento de texto. Tiene los siguientes
atributos:
- type
- especifica qué tipo de división textual
generada (p.ej., índice, tabla de contenidos, etc.) debe aparecer. Estos
son algunos posibles valores:
index (se genera y se inserta en este punto un índice), toc (una tabla de contenidos), figlist (una lista de imágenes) o tablist (una lista de tablas).
El
elemento <divGen> puede colocarse en cualquier lugar donde se
permite cualquier elemento de división, como en este ejemplo:
<front>
<titlePage> ... </titlePage>
<divGen type=toc>
<div type='Prefacio'><head>Prefacio</head> ... </div>
</front>
<body> ... </body>
<back>
<div1><head>Apéndice</head> ... </div1>
<divGen type=index n='Índice'>
</back>
Este
ejemplo también demuestra el uso del atributo type para
distinguir los diferentes tipos de división que se puede generar: en el
primer caso una tabla de contenidos (una toc) y en el segunto un
índice (un index).
Cuando
debamos etiquetar por algún motivo un índece o tabla de
contenidos (en lugar de ser generado), debemos usar el elemento
<list> visto en la sección
12 Listas.
17.3
Generación de índices
Mientras
que la creación de una tabla de contenidos, por un procesador
automático, de un documento correctamente etiquetado no suele ser
problemática, la producción de un índice de calidad suele
requerir un etiquetado más cuidadoso. Puede no ser suficiente con
producir una lista de todas las partes etiquetadas de un modo concreto, aunque
extraer (por ejemplo) todas las apariciones de elementos como
<term> o <name> suele ser un buen punto de
partida para crear un índice.
La DTD del
TEI provee una etiqueta específica <index> que puede
usarse para marcar tanto las partes del documento que deben ser indexadas y
como debe realizarse la indexación.
- <index>
- marca un lugar que debe ser indexado por algún
motivo. Tiene los siguientes atributos:
- level1
- da la forma principal de la entrada del
índice.
- level2
- da la forma de segundo nivel, si hay.
- level3
- da la forma de tercer nivel, si hay.
- level4
- da la forma de cuarto nivel, si hay.
- index
- indica a qué índice (o índices)
pertenece la entrada.
Por
ejemplo, el segundo párrafo de esta sección podría incluir
lo siguiente:
...
La DTD del TEI provee una etiqueta específica <gi>index</gi>
<index level1='indexing'>
<index level1='index (tag)' level2='use in index generation'>
que puede usarse...
El
elemento <index> también puede usarse para dar un tipo de
información interpretativa o analítica. Por ejemplo, en un
estudio de Ovidio, puede ser deseable indicar todas las referencias del poeta a
diferentes figuras, para llevar a cabo un estudio estilístico
comparativo. En las siguientes líneas de la Metamorfosis,
dicho estudio indicaría las referencias del poeta a Júpiter (como
deus, se y como el sujeto de confiteor [en la forma
inflexiba número 227]), a Júpiter disfrazado de toro (como
imago tauri fallacis y el sujeto de teneo), etcétera.
El análisis se ha extraído, con permiso, de An Analytical
Onomasticon to the Metamorphoses of Ovid, de Willard McCarty y Burton
Wright (Princeton: Princeton University Press, de próxima
aparición). Se han llevado a cabo algunas simplificaciones.
<l n=3.001>iamque deus posita fallacis imagine tauri
<l n=3.002>se confessus erat Dictaeaque rura tenebat
Se puede
satisfacer usando el elemento <note> visto en la sección
7 Notas o con el elemento
<interp> visto en la sección
16 Interpretación y
análisis. Aquí vamos a mostrar cómo también se
puede hacer usando el elemento <index>.
Damos por
hecho que el objetivo es generar más de un índice: uno para los
nombres de dioses (llamado dn), otro para referencias
onomásticas (llamado on), un tercero para referencias
pronominales (llamado pr), etc.. Un modo de hacerlo es así:
<l n=3.001>iamque deus posita fallacis imagine tauri
<index index="dn" level1="Iuppiter" level2="deus">
<index index="on" level1="Iuppiter (taurus)"
level2="imago tauri fallacis"></l>
<l n=3.002>se confessus erat Dictaeaque rura tenebat
<index index="pr" level1="Iuppiter" level2="se">
<index index="v" level1="Iuppiter" level2="confiteor (v227)">
<index index="mons" level1="Dicte" level2="rura Dictaea">
<index index="regio" level1="Creta" level2="rura Dictaea">
<index index="v" level1="Iuppiter (taurus)"
level2="teneo (v9)"></l>
Para cada
elemento <index> de arriba, se generará una entrada en el
índice apropiado, usando como nombre de la entrada el valor del atributo
level1 y como nombre secundario de entrada lo del atributo
level2, que contiene la palabra citada en forma nominativa. La
referencia real será sacada del contexto en que aparece el elemento
<index>, p.ej., en este caso el identificador del elemento
<l> que lo contenga.
18 Grupos de
caracteres, diacríticos, etc.
Para
aquellos que trabajen con formas estándar de los idiomas europeos, las
recomendaciones del TEI sobre el conjunto de caracteres son muy simples. Para
el uso local, podemos utilizar cualquier conjunto de caracteres que soporten
nuestra máquina y nuestros programas. Si nuestros programas permiten la
entrada de caracteres especiales complicados con nuestro teclado, podemos
elegir cómo definir nuestras propias convenciones de tecleo (por ejemplo
representar las letras acentuadas tecleando el acento inmediatamente
después de la letra o usar secuencias especiales que sea poco probable
que aparezcan en textos normales como aE en lugar de ä).
Luego se puede utilizar la función de "buscar y reemplazar" para cambiar
estos códigos por los caracteres correctos. Si trabajamos con caracteres
no latinos y existe un esquema de transliteración estándar en tu
campo de trabajo (p.ej., en el griego antiguo el código beta del
Thesaurus Linguæ Græcæ), debemos usarlo. Cualquier
transliteración usada debe ser reversible (esto anula o elimina un gran
número de esquemas comúnmente usados en la escritura normal) y
será más usable si no requiere ligaduras, nexos o tildes
especiales (esto elimina o anula un gran número del resto).
Para el
intercambio de ficheros entre sistemas, debemos utilizar las referencias a
entidades SGML para reemplazar todos los caracteres que no estén en esta
lista. Estos (los de la lista) casi siempre sobreviven sin cambios en el
intercambio electrónico:
a b c d e f g h i j k l m n o p q r s t u v w x y z
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
0 1 2 3 4 5 6 7 8 9
" % & ' ( ) * + , - . / : ; < = > ? _ (espacio)
Esta lista
excluye los siguientes caracteres que, para el frecuente enfado de usuarios
inexpertos, a menudo no sobreviven al traspaso entre límites nacionales
o redes de intercambio estándar. Sin embargo, si pasamos de Mac a PC,
estos caracteres probablemente estén "a salvo":
! # $ [ \ ] ^ ` { } | ~
Para
asegurar una correcta transmisión entre redes de varios proveedores,
deben usarse referencias a entidades para todos los caracteres acentuados y
latinos extendidos (extended-Latin), todos los caracteres no latinos y todos
los símbolos que no están en los teclados convencionales.
Podemos
usar nuestros propios nombres de entidades SGML en archivos conformes al TEI,
si deseamos y proveemos declaraciones estándares de entidades SGML para
ellos, pero los nombres estándarbut the standard names (aunque
cansadores) tienen la ventaja de la claridad; los caracteres propuestos son
bastante claros para cualquier anglo-hablante que reconozca que se está
llamando un carácter, a menudo incluso sin tener que recurrir a una
lista. Esto no sucede con otros esquemas para representar caracteres
acentuados.
Abajo
aparecen los nombres de las entidades para los caracteres de la lista de arriba
que no se consideran "a salvo" y para los caracteres acentuados de la
mayoría de las lenguas de Europa Occidental. Hay listas de los conjuntos
de entidades públicas y sus contenidos en cualquier manual de SGML: los
nombres de entidades de abajo se han extraído de los conjuntos de
entidades públicas ISO y son muy usados y muy recomendables.
Cuando el
carácter que necesitamos no aparece en los conjuntos de entidades
públicas, podríamos generar un nombre usando las mismas normas de
nomenclatura usadas en los conjuntos de entidades públicas del ISO, tal
y como se describe aquí:
- dígrafos
- Se forman nombres de entidades para dígrafos
añadiendo la cadena lig a las letras que forman dicho
dígrafo Si este va en mayúsculas, ambas letras deberán
estar en mayúsculas (las mayúsculas o minúsculas se
consideran significativas en los nombres de entidades). P. ej.: aelig
(æ), AElig (Æ) szlig (ß).
- diacríticos y acentos
- Se forman nombres de entidades para las letras
acentuadas de la mayoría de las lenguas de Europa Occidental
añadiendo una de las siguientes cadenas a la letra que lleva el acento,
que puede estar en mayúscula o minúscula.
- diéresis
- usamos uml para las diéresis: p. ej.,
auml (ä), Auml (Ä), euml (ë),
iuml (sic: ï), ouml (ö), Ouml (Ö),
uuml (ü), Uuml (Ü).
- tilde
- usamos acute para las tildes o acentos
gráficos: p. ej., aacute (á), eacute
(é), Eacute (É), iacute (í),
oacute (ó), uacute (ú).
- acento grave
- usamos grave para los acentos graves: p.
ej., agrave (à), egrave (è), igrave
(ì), ograve (ò), ugrave (ù).
- circunflejo
- usamos circ para los circunflejos: p. ej.,
acirc (â), ecirc (ê), Ecirc (Ê),
icirc (î), ocirc (ô), ucirc (û).
- virgulilla
- usamos tilde para las virgulillas: p. ej.,
atilde (ã), Atilde (Ã), ntilde
(ñ), Ntilde (Ñ), otilde (õ),
Otilde (Õ).
- consonantes
- Recomendamos los siguientes nombres de entidades para
ciertas consonantes especiales que hay en algunas lenguas de Europa Occidental:
ccedil (ç), Ccedil (Ç), eth (ð),
ETH (Ð), thorn (þ), THORN (Þ),
szlig (la ligadura alemana s-z o esszett, ß).
- signos de puntuación
- Recomendamos los siguientes nombres de entidades para
algunos signos de puntuación comúnmente usados: ldquo
(comillas de apertura, “), rdquo (comillas de cierre, ”),
mdash (raya larga), hellip (puntos suspensivos),
rsquo (comilla simple de cierre, ’). Ver también la lista
de caracteres 'inseguros' de más abajo.
- caracteres 'inseguros'
- Los siguientes caracteres son inseguros en la
transmisión entre actuales redes internacionales tanto de acceso
público como académicas; puden representarse con las siguientes
entidades: excl (!), num (#), dollar ($),
lsqb (paréntesis angular izquierdo), bsol (barra
inversa, \), rsqb (paréntesis angular derecho),
circ (circunflejo, ^), lsquo (comilla simple de
apertura), grave (acento grave), lcub (llave de apertura,
{), rcub (llave de cierre, }), verbar
(barra vertical, |), tilde (~).
19 Materia del
Front y del Back
19.1 Materia
del Front
Por muchos
motivos, especialmente en textos antiguos, la materia preliminar como portadas,
cartas a modo de prólogo, etc., puede aportar información
lingüística o social adicional muy útil. P3 provee un
conjunto de recomendaciones para distinguir los elementos textuales que se
encuentran más comúnmente en el material del front, que
están resumidos aquí.
19.1.1
Portada
El inicio
de una portada debe ir marcada con el elemento <titlePage>. Todo
el texto que contenga esta portada debe ser transcrito y etiquetado con el
elemento apropiado de esta lista:
- <titlePage>
- contiene la portada (o página que contiene el
título) de un texto, ya aparezca en el front o en el
back.
- <docTitle>
- contiene el título de un documento, incluyendo
todos sus partes, tal y como aparezca en la portada. Debe dividirse en
elementos <titlePart>.
- <titlePart>
- contiene una susubsección o división
del título de una obra, como se indica en la portada; también se
usa para fragmentos libres de la portada que no son parte del título del
documento, de la atribución de autoría, etc. Tiene los siguientes
atributos:
- type
- especifica el papel de esta subdivisión del
título. Se sugieren los siguientes valores:
main (título principal), sub (subtítulo), desc (paráfrasis descriptiva de la obra incluida en el
título), y alt (título alternativo).
- <byline>
- contiene la declaración primaria de
responsabilidad de una obra que aparece en la portada o al principio o final de
la obra.
- <docAuthor>
- contiene el nombre del autor del documento, como
aparece en la portada (aunque no siempre, suele ir contenido en un
<byline>).
- <docDate>
- contiene la fecha del documento, como aparece
(normalmente) en la portada.
- <docEdition>
- contiene una declaración de edición tal
y como se presenta en la portada de un documento.
- <docImprint>
- contiene la declaración de impresión
(lugar y fecha de publicación, nombre del editor), como aparece
(normalmente) al pie de la portada.
- <epigraph>
- contiene una cita, anónima o atribuida, que
aparece al principio de una sección o capítulo, o en la
portada.
Los
diferentes tipos de letra deben indicarse, cuando sea necesario, en el atributo
rend como se ha descrito arriba. La descripción muy detallada
del espaciado y tamaño de letra de los títulos decorativos no
está prevista hasta ahora en las Normas. Los cambios de idioma deben
marcarse con el uso apropiado del atributo lang o el elemento
<foreign>, según sea necesario. Los nombres, dondequiera
que aparezcan, deben etiquetarse con la etiqueta <name>, como en
cualquier otro lugar.
Dos
ejemplos de portadas:
<titlePage rend=Roman>
<docTitle><titlePart type="main">LÁGRIMAS,</titlePart>
<titlePart type="sub">NOVELA DE COSTUMBRES CONTEMPORÁNEAS,
</titlePart>
</docTitle>
<byLine>POR <docAuthor>FERNÁN CABALLERO.</docAuthor></byline>
<docImprint><name>MADRID</name>,
ESTABLECIMIENTO TIPOGRÁMFICO DE <name>MELLADO</name>
<name>Calle de Santa Teresa</name> num. 8.</docImprint>
<docDate>1862</docDate>
</titlePage>
<titlePage>
<docTitle><titlePart type="main">
Lives of the Queens of England, from the Norman
Conquest;</titlePart>
<titlePart type="sub">with anecdotes of their courts.
</titlePart></docTitle>
<titlePart>Now first published from Official Records
and other authentic documents private as well as
public.</titlePart>
<docEdition>New edition, with corrections and
additions</docEdition>
<byline>By <docAuthor>Agnes Strickland</docAuthor></byline>
<epigraph>
<q>The treasures of antiquity laid up in old
historic rolls, I opened.</q>
<bibl>BEAUMONT</bibl>
</epigraph>
<docImprint>Philadelphia: Blanchard and Lea</docImprint>
<docDate>1860.</docDate>
</titlePage>
19.1.2
Materia preliminar
Las
secciones mayores de texto de la materia preliminar (front) deben
marcarse con elementos <div> o <div1>; se pueden
usar los siguientes valores sugeridos para el atributo type para
distinguir varios tipos comunes de materia preliminar:
- foreword
- un texto dirigido al lector, por el autor, editor o
editorial, posiblemente en forma de carta.
- preface
- un texto dirigido al lector, por el autor, editor o
editorial, posiblemente en forma de carta.
- dedication
- un texto (a menudo una carta) dirigido a alguien
distinto al lector a quien el autor dedica la obra.
- abstract
- un texto en prosa que resume el contenido de la
obra.
- ack
- Reconocimientos.
- contents
- una tabla de contenidos o índice (normalmente
debe ir etiquetada como una <list>).
- frontispiece
- una portada ilustrativa, posiblemente conteniendo
algo de texto.
Como
cualquier división textual, las del front pueden contener
elementos estructurales de nivel bajo o no estructurales como ya se ha
descrito. Normalmente empiezan con un encabezado o título de
algún tipo que debe ser etiquetado con el elemento
<head>. Las cartas contendrán además los
siguientes elementos adicionales:
- <salute>
- contiene una salutación o saludo previo al
prólogo, carta dedicatoria u otra división textual, o la
salutación al final de una carta, prefacio, etc.
- <signed>
- contiene una salutación de cierre, etc., anexa
al prólogo, carta dedicatoria u otra división textual.
- <byline>
- contiene la declaración de responsabilidad
primaria de una obra que aparece en su portada o al principio o final de la
obra.
- <dateline>
- contiene una breve descripción del lugar,
fecha, etc., de producción de una carta, historia periodística o
otro material, colocada antes o después de esta a modo de encabezado o cláusula
final.
- <argument>
- Una lista o pequeño fragmento en prosa que
describe los temas tratados en una subdivisión del texto.
- <cit>
- Una cita de otro documento, junto con la referencia
bibliográfica de su fuente.
- <opener>
- agrupa el dateline, byline,
salute y las frases similares que aparecen como un grupo preliminar al
comienzo de una división, especialmente de una carta.
- <closer>
- agrupa el dateline, byline,
salute y las frases similares que aparecen al final de una
división, especialmente de una carta.
Las cartas
que aparezcan en cualquier otra parte del texto contendrán, por
supuesto, estos mismos elementos.
Como
ejemplo, la dedicatoria del comienzo de Milton's Comus debe
marcarse así:
<div type='dedication'>
<head>Dedicatoria a <name>Demócrito</name> y <name>Heráclito</name></head>
<salute>DIFERENTÍSIMOS SEÑORES:</salute>
<p>Aunque en todos los siglos habrán ofrecido mucho que reír,
y que llorar las pasiones y flaquezas de los hombres, y por
consiguiente en vuestra edad tendríais bastantes objetos de
llanto y de risa, no obstante, me parece que la <hi>Era</hi> en que
sale a la luz este papel merece que resucitéis, para reír el
uno a carcajada tendida, y llorar el otro a moco suelto sobre
la literatura y los literatos; prescindiendo de los muchos
otros motivos que diz que hay de llanto y de risa.</p>
<closer>
<salute><name>Júpiter</name> os guarde de todo mal; pero sobre todo, de
un mal erudito.</salute>
<signed><name>José Cadalso.</name></signed>
</closer>
</div>
19.2 Materia
del Back
19.2.1
Divisiones estructurales de la materia del Back
Debido a
las variaciones en la práctica editorial, la materia del back
puede contener teóricamente cualquiera de los elementos vistos arriba
para la materia del front y estos mismos elementos deben usarse donde
sean necesarios. Además, la materia del back puede contener los
siguientes tipos de material dentro del elemento <back>. Del
mismo modo que las divisiones estructurales del body, estas se deben
marcar con elementos <div> o <div1> y diferenciar
con los siguientes valores sugeridos del atributo type:
- appendix
- un apéndice.
- glossary
- una lista de palabras y definiciones, normalmente con
la forma de una list type=gloss.
- notes
- una serie de elementos <note>.
- bibliography
- una serie de referencias bibliográfcas,
normalmente en forma de un elemento especial de lista bibliográfica
<listBibl>, cuyos elementos son
etiquetas<bibl>.
- index
- un conjunto de entradas del índice,
posiblemente representado como una lista estructurada o un glosario, con un
encabezado (<head>) opcional y quizás algunos
párrafos de texto introductorio o final (el TEI P3 define otros
elementos especializados para generar índices en la creación del
documento; esto está descrito en la sección
17.3 Generación de
índices).
- colophon
- una descripción al final del libro
describiendo dónde, cuándo y por quién fue impreso; en los
libros modernos también suele dar detalles sobre la producción e
identifica los tipos de letra usados.
20 La portada
electrónica
Cada texto
TEI tiene un encabezado (header) que proporciona información
paralela a la proporcionada por la portada del libro impreso. El encabezado
está introducido por el elemento <teiHeader> y tiene
cuatro partes principales:
- <fileDesc>
- contiene una descripción bibliográfica
completa del archivo electrónico.
- <encodingDesc>
- documenta la relación entre un texto
electrónico y la fuente o fuentes de las que se ha sacado.
- <profileDesc>
- provee una descripción detallada de los
aspectos no bibliográficos de un texto, específicamente los
idiomas y dialectos usados, la situación en que se creó, los
participantes,...
- <revisionDesc>
- resume la historia de las revisiones de un
archivo.
Un corpus
o colección de textos, que comparten muchas características,
puede tener un encabezado para el corpus y encabezados individuales para cada
componente del corpus. En este caso el atributo type indica el tipo de
encabezado.
<teiHeader type=corpus>
introduce el encabezado con
información del corpus.
Algunos de
los elementos del encabezado contienen texto en prosa que consiste en uno o
más <p>s. Otros están agrupados en:
- Elementos cuyos nombre acaban en Stmt (de
statement (enunciación)) que suelen usually incluir un grupo de
elementos que recogen información estructurada.
- Elementos cuyos nombre acaban en Decl (de
declaration (declaración)) que incluyen información
sobre prácticas de marcado específicas.
- Elementos cuyos nombre acaban en Desc (de
description (descripción)) contienen una descripción en
prosa.
20.1 La
descripción del archivo
El
elemento <fileDesc> es obligatorio. Contiene una
descripción bibliográfica completa del archivo con los siguientes
elementos:
- <titleStmt>
- agrupa información sobre el título de
una obra y de los responsables de su contenido intelectual.
- <editionStmt>
- agrupa información relativa a una
edición de un texto.
- <extent>
- describe el tamaño aproximado del texto
electrónico como si estuviera guardado en algún medio portador,
especificado en unidades adecuadas.
- <publicationStmt>
- agrupa información relativa a la
publicación o distribución de un texto ya sea electrónico
o de otro tipo.
- <seriesStmt>
- agrupa información sobre la serie, si
hubiera, a la que pertenece la publicación.
- <notesStmt>
- agrupa todas las notas que den información
sobre un texto adicional al indicado en otras partes de la descripción
bibliográfica.
- <sourceDesc>
- proporciona una descripción
bibliográfica del (los) texto(s) copia a partir de los cuales se ha
generado o ha surgido el texto electrónico.
Un
encabezado mínimo tiene la siguiente estructura:
<teiHeader>
<fileDesc>
<titleStmt> ... </titleStmt>
<publicationStmt> ... <publicationStmt>
<sourceDesc> ... <sourceDesc>
</fileDesc>
</teiHeader>
20.1.1 La
declaración del título
Los
siguientes elementos pueden usarse en el <titleStmt>:
- <title>
- contiene el título de una obra, ya sea un
artículo, libro, periódico o una serie, incluyendo cualquier
título alternativo o subtítulos.
- <author>
- en una referencia bibliográfica, contiene el
nombre del (los) autor(es), personal o corporativo, de una obra; la
enunciación o declaración de responsabilidad
(statement of responsibility) de cualquier elementos
bibliográfico.
- <sponsor>
- especifica el nombre de una organización o
institución patrocinadora.
- <funder>
- especifica el nombre de una persona,
organización o institución responsable de la financiación
del proyecto o texto.
- <principal>
- proporciona el nombre del investigador principal
responsable de la creación de un texto electrónico.
- <respStmt>
- proporciona una enunciación o
declaración de responsabilidad de alguien responsable del contenido
intelectual de un texto, edición, grabación o serie, donde los
elementos especializados para los autores, editores, etc., no son suficientes o
no pueden emplearse.
Se
recomienda que el título distinga el archivo electrónico del
texto fuente, por ejemplo:
[título de la fuente]: una transcripción eléctronica
[título de la fuente]: edición eléctronica
Una versión eléctronica de: [título de la fuente]
El
elemento <respStmt> contiene los siguientes subcomponentes:
- <resp>
- contiene una frase que describe la naturaleza de la
responsabilidad intelectual de una persona.
- <name>
- contiene un nombre propio o frase nominal.
Ejemplo:
<titleStmt>
<title>El ingenioso hidalgo Don Quijote de la Mancha:
edición electrónica</title>
<author>Cervantes Saavedra, Miguel de (1547-1616)
<respStmt><resp>edición de</resp>
<name>Florencio Sevilla Arroyo</name></respStmt>
</titleStmt>
20.1.2 La
declaración de la edición
El
<editionStmt> agrupa información relativa a una
edición de un texto (donde edition se usa en cualquier otro
lugar de la bibliografía) y puede incluir los siguientes elementos:
- <edition>
- describe las particularidades de una edición
de un texto.
- <respStmt>
- proporciona una enunciación o
declaración de responsabilidad de alguien responsable del contenido
intelectual de un texto, edición, grabación o serie, donde los
elementos especializados para los autores, editores, etc., no son suficientes o
no pueden emplearse.
Ejemplo:
<editionStmt>
<edition n=U2>Tercer borrador, revisado
<date>1987</date>
</edition>
</editionStmt>
Se deja al
etiquetador determinar exactamente qué constituye una nueva
edición de un texto electrónico.
20.1.3 La
declaración de la extensión
La
enunciación de <extent> describe el tamaño
aproximado de un archivo.
Ejemplo:
<extent>4532 bytes</extent>
20.1.4 La
declaración de la publicación
El
<publicationStmt> es obligatorio. Puede contener una sencilla
descripción o un grupo de los siguientes elementos:
- <publisher>
- da el nombre de la organización responsable de
la publicación o distribución de un elemento
bibliográfico.
- <distributor>
- proporciona el nombre de una persona o agencia
responsable de la distribución de un texto.
- <authority>
- proporciona el nombre de una persona o agencia
responsable de la disponibilidad de un archivo electrónico, diferente
del publisher o distributor.
Al menos
uno de estos tres elementos debe estar presente, a menos que todo el
<publicationStmt> esté en prosa. Los siguientes elementos
pueden aparecer dentro de estos:
- <pubPlace>
- contiene el nombre del lugar donde el elemento
bibliográfico fue publicado.
- <address>
- contiene una dirección postal o de otro tipo,
por ejemplo de una editorial, organización o persona.
- <idno>
- proporciona un número estándar o no
estándar usado para identificar un elemento bibliográfico. Tiene
los siguientes atributos:
- type
- clasifica el número, por ejemplo como un ISBN
o cualquier otro estándar.
- <availability>
- proporciona información sobre la
disponibilidad de un texto, por ejemplo las restricciones en su uso o
distribución, su estado de copyright, etc. Tiene los siguientes
atributos:
- status
- proporciona un código que identifica la
disponibilidad actual del texto. Algunos valores posibles son
restricted , unknown y free .
- <date>
- contiene una fecha en cualquier formato.
Ejemplo:
<publicationStmt>
<publisher>Biblioteca Virtual Miguel de Cervantes</publisher>
<pubPlace>Universidad de Alicante</pubPlace>
<date>1999</date>
<idno type=catálogo>002547</idno>
<availability>Copyright © Universidad de Alicante,
Banco Santander Central Hispano 1999-2001. Accesible
desde http://cervantesvirtual.com</availability>
</publicationStmt>
20.1.5
Declaraciones de series y notas
El
<seriesStmt> agrupa información sobre la serie, si
hubiera, a la que pertenece la publicación. Puede contener los elementos
<title>, <idno> o <respStmt>.
El
<notesStmt>, si se usa, contiene uno o más elementos
<note> que contienen una nota o anotación. A cierta
información del área de notas en la bibliografía
convencional se le ha asignado elementos específicos en el esquema del
TEI.
20.1.6 La
descripción de la fuente
El
<sourceDesc> es un elemento obligatorio que indica detalles de
la fuente o fuentes de las que ha surgido el archivo digital. Puede contener un
pequeño texto o una cita bibliográfica, usando uno o más
de estos elementos:
- <bibl>
- contiene una cita bibliográfica poco
estructurada de la que los subcomponentes pueden ir o no explícitamente
estructurados.
- <biblFull>
- contiene una cita bibliográfica perfectamente
estructurada, en la que todos los componentes de la descripción del
archivo TEI están presentes.
- <listBibl>
- contiene una lista de citas bibliográficas de
cualquier tipo.
Ejemplo:
<sourceDesc>
<bibl>El alcalde de Zalamea, edición de
José María Ruano de la Haza (Madrid,
Espasa Calpe, 1995, 5ª ed.)</bibl>
</sourceDesc>
<sourceDesc>
<scriptStmt id=CNN12>
<bibl><author>CNN Network News
<title>News headlines
<date>12 Jun 1989
</bibl>
</scriptStmt>
</sourceDesc>
20.2 La
descripción de la codificación
El
elemento <encodingDesc> especifica los métodos y
principios editoriales que gobernaron la transcripción del texto. Su uso
es muy recomendable. Puede ser una descripción en prosa o puede contener
elementos de la siguiente lista:
- <projectDesc>
- describe detalladamente el objetivo o
propósito por el que se ha etiquetado un archivo electrónico,
junto con cualquier otra información relevante relativa al proceso por
el que se ha juntado o creado.
- <samplingDecl>
- contiene una descripción en prosa del motivo y
métodos usados en el muestreo de textos para la creación de un
corpus o colección.
- <editorialDecl>
- da detalles de los principios y prácticas
editoriales aplicadas durante el etiquetado de un texto.
- <tagsDecl>
- provee información detallada sobre el
etiquetado aplicado a un documento SGML.
- <refsDecl>
- especifica cómo se construyen las referencias
canónicas para este texto.
- <classDecl>
- contiene una o más taxonomías que
definen los códigos clasificatorios utilizados a lo largo del
texto.
20.2.1
Descripción del proyecto y del muestreo
Ejemplos
de <projectDesc> y <samplingDesc>:
<encodingDesc>
<projectDesc>Textos recogidos para su uso en el Claremont
Shakespeare Clinic, junio de 1990.
</projectDesc>
</encodingDesc>
<encodingDesc>
<samplingDecl>Muestras de 2000 palabras extraídas del
principio del texto
</samplingDecl>
</encodingDesc>
20.2.2
Declaración de la edición
El
<editorialDecl> contiene una descripción en prosa de las
prácticas usadas cuando se codificó el texto. Normalmente esta
descripción debe cubrir tópicos como los siguientes, cada uno
convenientemente indicado en párrafos separados.
- correction
- cómo y bajo qué circunstancias se ha
llevado a cabo la corrección del texto.
- normalization
- hasta qué punto se ha regularizado o
normalizado la fuente original.
- quotation
- qué se ha hecho con las comillas del original
-- si se han mantenido o han sido reemplazadas por referencias a entidades, si
se distingue entre comillas de inicio y de fin, etc.
- hyphenation
- qué se ha hecho con los guiones del original
(especialmente los de fin de línea) -- si se han mantenido o han sido
reemplazadas por referencias a entidades, etc.
- segmentation
- cómo se ha segmentado el texto, por ejemplo,
en frases, how has the text has been segmented, for example into sentences,
fonemas, grafemas, etc.
- interpretation
- qué información analítica o
interpretativa se ha añadido al texto.
Ejemplo:
<editorialDecl>
<p>La parte de análisis del discurso aplicada en la
sección 4 fue agregada a mano y no se ha revisado.
<p>Se han controlado los errores en la transcripción
por medio del corrector ortográfico de WordPerfect.
<p>Todas las palabras se han convertido a la ortografía
del castellano actual usando el diccionario de la
Real Academia Española de la Lengua.
<p>Todas las comillas se han convertido a las entidades
&odq; y &cdq;.
</editorialDecl>
20.2.3
Declaración de etiquetado, referencia y
clasificación
El
elemento <tagsDecl> se usa para aportar información
detallada sobre las etiquetas de SGML que aparecen en el texto. Puede contener
una sencilla lista de los elementos usados, con el número de apariciones
de cada uno, usando los siguientes elementos específicos:
- <tagUsage>
- proporciona información sobre el uso de un
elementos específico dentro del ampli <text> de un
documento TEI. Tiene los siguientes atributos:
- gi
- el nombre (identificador genérico) del
elemento indicado por la etiqueta.
- occurs
- especifica el número de apariciones de este
elementos en el texto.
El
elemento <rendition> se usa para documentar los distintos modos
en que los elementos son mostrados en el texto fuente.
- <rendition>
- da información sobre el formato pretendido de
uno o más elementos.
- <tagUsage>
- da información sobre el uso de un elemento
específico dentro de un <text>. Tiene los siguientes
atributos:
- occurs
- especifica el número de apariciones de este
elemento en el texto.
- ident
- especifica el número de apariciones de este
elemento en el texto que lleva un valor diferente para el atributo global
id.
- render
- especifica el identificador de un elemento
<rendition> que define cómo debe mostrarse este
elemento.
Por
ejemplo:
<tagsDecl>
<tagUsage gi=text occurs=1>
<tagUsage gi=body occurs=1>
<tagUsage gi=p occurs=12>
<tagUsage gi=hi occurs=6>
</tagsDecl>
Esta
declaración del etiquetado (ficticia) sería correcta para un
texto que tuviera doce párrafos (p) en su cuerpo
(body), dentro de los cuales se han marcado seis elementos
<hi>. Fíjese qu si se usa el elemento
<tagsDecl>, debe contener un elemento <tagUsage>
para cada elemento etiquetado en el elemento de texto (text)
asociado.
El
elemento <refsDecl> se usa para documentar el modo en que
funciona cualquier esquema estándar de referencia construido dentro del
etiquetado. En su forma más sencilla, consiste en una descripción
en prosa.
Ejemplo:
<refsDecl>
<p>El atributo N de cada DIV1 y DIV2 contiene la
referencia canónica para cada division con la forma
XX.yyy donde XX es el número del libro en números
romanos y yyy es el número de sección en arábigos.
</refsDecl>
El
elemento <classDecl> agrupa definiciones o fuentes para
cualquier esquema de clasificación descriptiva usadas en otras partes
del encabezado. Cómo mínimo uno de estos esquemas debe indicarse
codificado con los siguientes elementos:
- <taxonomy>
- define a tipología usada para clasificar
textos implícitamente, por medio de una cita bibliográfica, o
explícitamente con una taxonomía estructurada.
- <bibl>
- contiene una cita bibliográfica poco
estructurada de la que los subcomponentes pueden ir o no explícitamente
estructurados.
- <category>
- contiene una categoría descriptiva individual,
posiblemente anidada dentro de una categoría superior, dentro de una
taxonomía definida por el usuario.
- <catDesc>
- describe alguna categoría dentro de una
taxonomía o tipología textual, en forma de una breve
descripción en prosa.
En el caso
más sencillo, la taxonomía puede ir definida por una referencia
bibliográfica, como en este ejemplo:
<classDecl>
<taxonomy id='TMBC'>
<bibl>Título de materias de la Biblioteca del Congreso
</bibl>
</taxonomy>
</classDecl>
De otro
modo, o además, el etiquetador puede definir un esquema de
clasificación específico, como en este ejemplo:
<taxonomy id=B>
<bibl>BIMICESA</bibl>
<category id=B.A><catDesc>Poesía
<category id=B.A1><catDesc>Dramática</category>
<category id=B.A2><catDesc>Épica</category>
<category id=B.A3><catDesc>Lírica</category>
<category id=B.A4><catDesc>Satírica y de humor</category>
</category>
<category id=B.D><catDesc>Narrativa
<category id=B.D1><catDesc>Novela</category>
<category id=B.D2><catDesc>Cuento. Novela corta</category>
<category id=B.D3><catDesc>Cuentos fantásticos.
Fábulas. Leyendas. Mitos</category>
</category>
...
</taxonomy>
El enlace
entre un texto concreto y una categoría dentro de una taxonomía
se realiza por medio del elemento <catRef> dentro del elemento
<textClass>, como se describe más abajo.
20.3 La
descripción del perfil (<profileDesc>)
El
elemento <profileDesc> facilita información sobre varios
aspectos descriptivos de un texto para que sean grabados dentro de un
único marco. Tiene tres componentes opcionales:
- <creation>
- contiene información sobre la creación
de un texto.
- <langUsage>
- describe los idiomas, dialectos, registros, etc., que
aparecen en un texto.
- <textClass>
- agrupa información que describe la naturaleza
o tema del texto según un esquema de clasificación
estándar, thesaurus, etc.
Ejemplo:
<creation>
<date value='1992-08'>Agosto de 1992</date>
<name type=place>Taos, Nuevo Mexico</name>
</creation>
El
elemento <textClass> clasifica un texto en relación con
el sistema o sistemas definidos en el elemento <classDecl> y
contiene uno o más de estos elementos:
- <keywords>
- contiene una lista de palabras clave o frases que
identifican el tema o naturaleza de un texto. Tiene los siguientes
atributos:
- scheme
- identifica el vocabulario controlado dentro del cual
se definen el conjunto de palabras clave.
- <classCode>
- contiene el código de clasificación
usado en este texto según algún sistema estándar de
clasificación. Tiene los siguientes atributos:
- scheme
- identifica el sistema de clasificación o
taxonomía usado.
- <catRef>
- especifica una o más categorías dentro
de alguna taxonomía o tipología textual.
- target
- identifies the categories concerned.
El
elemento <keywords> contiene una lista de palabras clave o
frases que identifican el tema o naturaleza de un texto. El atributo
scheme enlaza estas con el sistema de clasificación definido en
<taxonomy>.
<textClass>
<keywords scheme=TMBC>
<list>
<item>Literatura Inglesa -- Historia y crítica --
Procesamiento de datos.</item>
<item>Literatura Inglesa -- Historia y crítica --
Teoría etc.</item>
<item>Lengua Inglesa -- Estilo -- Procesamiento
de datos.</item>
...
</list>
</keywords>
</textClass>
20.4 La
descripción de la revisión
El
elemento <revisionDesc> proprociona una entrada de cambio en la
que se recoge cada cambio realizado en el texto. La entrada puede etiquetarse
como una sucesión de elementos <change> que
contienen:
- <date>
- contiene una fecha en cualquier formato.
- <respStmt>
- proporciona una enunciación o
declaración de responsabilidad de alguien responsable del contenido
intelectual de un texto, edición, grabación o serie, donde los
elementos especializados para los autores, editores, etc., no son suficientes o
no pueden emplearse.
- <item>
- contiene un componente de una lista.
Ejemplo:
<revisionDesc>
<change><date>6/3/91:</date>
<respStmt><name>MSQ</name><resp>ed.</resp></respStmt>
<item>Actualización del formato del archivo</item>
<change><date>5/25/90:</date>
<respSmt><name>MSQ</name><resp>ed.</resp>
<item>Introducción de las correcciones de RNB</item>
</revisionDesc>
21 Lista de
elementos descritos
21.1 Atributos
globales
Todos los
elementos de la definición del tipo de documento del TEI Lite tienen los
siguientes atributos globales:
- ana
- enlaza un elemento con su interpretación.
- corresp
- enlaza un elemento con uno o más elementos
parecidos.
- id
- Identificador único del elemento; debe empezar
con una letra y puede contener letras, números, guiones y puntos.
- lang
- idioma del texto en este elemento; si no se
especifica, se supone que el idioma es el mismo que el del contexto que le
rodea.
- n
- Nombre o número de este elemento; puede ser
cualquier cadena de caracteres. Suelen usarse para indicar sistemas de
referencia tradicionales.
- next
- enlaza un elemento al siguiente en un conjunto.
- prev
- enlaza un elemento al anterior en un conjunto.
- rend
- realización física del elemento en el
texto copia:
italic , roman ,display block , etc. Su valor puede ser cualquier cadena de caracteres.
21.2 Elementos
del TEI Lite
La
siguiente lista muestra todos los elementos definidos en la DTD del TEI Lite,
con una pequeña descripción de cada uno:
- <abbr>
- contiene una abreviatura de cualquier tipo; el
desarrollo puede darse en el atributo expan.
- <add>
- contiene letras, palabras, o frases insertadas en el
texto por un autor, escribano, anotador o corrector.
- <address>
- contiene una dirección postal o de otro tipo,
por ejemplo de una editorial, organización o persona.
- <addrLine>
- contiene una línea de una dirección
postal o de otro tipo.
- <anchor>
- especifica un sitio o punto dentro de un documento al
que hacer la referencia.
- <argument>
- Una lista o pequeño fragmento en prosa que
describe los temas tratados en una subdivisión del texto.
- <author>
- en una referencia bibliográfica, contiene el
nombre del (los) autor(es), personal o corporativo, de una obra; la
enunciación o declaración de responsabilidad
(statement of responsibility) de cualquier elementos
bibliográfico.
- <authority>
- proporciona el nombre de una persona o agencia
responsable de la disponibilidad de un archivo electrónico, diferente
del publisher o distributor.
- <availability>
- proporciona información sobre la
disponibilidad de un texto, por ejemplo las restricciones en su uso o
distribución, su estado de copyright, etc.
- <back>
- contiene los apéndices, etc., que siguen a la
parte principal de un texto.
- <bibl>
- contiene una cita bibliográfica poco
estructurada de la que los subcomponentes pueden ir o no explícitamente
estructurados.
- <biblFull>
- contiene una cita bibliográfica perfectamente
estructurada, en la que todos los componentes de la descripción del
archivo TEI están presentes.
- <biblScope>
- define el ámbito de la referencia
bibliográfica, por ejemplo como una lista de números de
página o una subdivisión de una obra mayor.
- <body>
- contiene todo el cuerpo de un texto individual,
exceptuando la materia del front y del back.
- <byline>
- contiene la declaración de responsabilidad
primaria de una obra que aparece en su portada o al principio o final de la
obra.
- <catDesc>
- describe alguna categoría dentro de una
taxonomía o tipología textual, en forma de una breve
descripción en prosa.
- <category>
- contiene una categoría descriptiva individual,
posiblemente anidada dentro de una categoría superior, dentro de una
taxonomía definida por el usuario.
- <catRef>
- especifica una o más categorías dentro
de alguna taxonomía o tipología textual.
- <cell>
- contiene una celda de una tabla.
- <cit>
- Una cita de otro documento, junto con la referencia
bibliográfica de su fuente.
- <classCode>
- contiene el código de clasificación
usado en este texto según algún sistema estándar de
clasificación, que está identificado en el atributo
scheme.
- <classDecl>
- contiene una o más taxonomías que
definen los códigos clasificatorios utilizados a lo largo del
texto.
- <closer>
- agrupa el dateline, byline,
salute y las frases similares que aparecen al final de una
división, especialmente de una carta.
- <code>
- contiene un pequeño fragmento de código
en algún lenguaje formal (normalmente un lenguaje de
programación).
- <corr>
- contiene la forma correcta de un fragmento que
aparentemente es erróneo en el texto.
- <creation>
- contiene información sobre la creación
de un texto.
- <date>
- contiene una fecha en cualquier formato, con el valor
normalizado en el atributo value.
- <dateline>
- contiene una breve descripción del lugar,
fecha, etc., de producción de una carta, historia periodística o
otro material, previa o posterior a este del tipo encabezado o cláusula
final.
- <del>
- contiene una letra, palabra o pasaje borrado, marcado
como borrado, o marcado por un autor, copista, anotador o corrector como
superfluo o falso en el texto.
- <distributor>
- proporciona el nombre de una persona o agencia
responsable de la distribución de un texto.
- <div>
- contiene una subdivisión del front,
body o back del texto.
- <div1> ... <div7>
- contiene una subdivisión de primer, segundo,
..., séptimo nivel en el front, body o back
del texto.
- <divGen>
- indica el lugar en el que debe aparecer una
división textual generada automáticamente por una
aplicación de procesamiento de texto; el atributo type
especifica si es un índice, tabla de contenidos u otra cosa.
- <docAuthor>
- contiene el nombre del autor del documento, como
aparece en la portada (aunque no siempre, suele ir contenido en un
<byline>).
- <docDate>
- contiene la fecha del documento, como aparece
(normalmente) en la portada.
- <docEdition>
- contiene una declaración de edición tal
y como se presenta en la portada de un documento.
- <docImprint>
- contiene la declaración de impresión
(lugar y fecha de publicación, nombre del editor), como aparece
(normalmente) al pie de la portada.
- <docTitle>
- contiene el título de un documento, incluyendo
todos sus partes, tal y como aparezca en la portada. Debe dividirse en
elementos <titlePart>.
- <edition>
- describe las particularidades de una edición
de un texto.
- <editionStmt>
- agrupa información relativa a una
edición de un texto.
- <editor>
- declaración de responsabilidad
secundaria de un elemento bibliográfico, por ejemplo el nombre de una
persona, institución u organización (o varios) que
desempeñan la función de editor, compilador, traductor, etc.
- <editorialDecl>
- da detalles de los principios y prácticas
editoriales aplicadas durante el etiquetado de un texto.
- <eg>
- contiene un único pequeño ejemplo de un
tema técnico tratado, p. ej., un fragmento de código o una
muestra del etiquetado SGML.
- <emph>
- marca palabras o frases que son enfatizadas por un
efecto lingüístico o retórico.
- <encodingDesc>
- documenta la relación entre un texto
electrónico y la fuente o fuentes de las que se ha sacado.
- <epigraph>
- contiene una cita, anónima o atribuida, que
aparece al principio de una sección o capítulo, o en la
portada.
- <extent>
- describe el tamaño aproximado del texto
electrónico como si estuviera guardado en algún medio portador,
especificado en unidades adecuadas.
- <figure>
- marca el punto en el que debe ser insertado un
gráfico en un documento. Se pueden usar sus atributos para indicar una
entidad SGML que contiene la propia imagen (en una notación que no sea
SGML); se pueden usar párrafos dentro del elemento
<figure> para transcribir el encabezamiento o pie de foto.
- <fileDesc>
- contiene una descripción bibliográfica
completa del archivo electrónico.
- <foreign>
- identifica una palabra o frase que está en un
idioma diferente del del texto de alrededor.
- <formula>
- contiene una fórmula matemática o
química, opcionalmente presentada en alguna notación que no sea
SGML. El atributo notation se emplea para transcribir la
fórmula.
- <front>
- contiene los materiales previos (encabezados,
portada, prólogos, dedicatorias, etc.) que aparecen antes del comienzo
del texto propiamente dicho:
- <funder>
- especifica el nombre de una persona,
organización o institución responsable de la financiación
del proyecto o texto.
- <gap>
- indica un punto donde se ha omitido material en una
transcripción, ya sea por motivos del editor descritos en el TEI header,
como parte de la práctica de muestreo, o porque el material es ilegible
o inaudible.
- <gi>
- contiene un tipo especial de identifcador: un
identificador genérico de SGML o el nombre de un elemento.
- <gloss>
- marca una palabra o frase que constituye una glosa o
definición de alguna otra palabra o frase.
- <group>
- contiene un conjunto de textos individuales o grupos
de textos.
- <head>
- contiene cualquier encabezado, por ejemplo, el
título de una sección o el encabezado de una lista o
glosario.
- <hi>
- marca una palabra o frase gráficamente
distinta del texto que le rodea por razones que no se especifican.
- <ident>
- contiene un identificador de algún tipo, p.
ej., un nombre variable o el nombre de un elemento o atributo SGML.
- <idno>
- proporciona un número estándar o no
estándar usado para identificar un elemento bibliográfico; el
atributo type identifica el esquema o estádar.
- <imprint>
- agrupa información relativa a la
publicación o distribución de un elemento
bibliográfico.
- <index>
- marca un lugar que debe ser indexado por algún
motivo. Se usan los atributos para dar la forma principla y las formas de
segundo hasta cuarto nivel para introducirlas en el índice
indicado.
- <interp>
- proporciona una anotación interpretativa que
puede estar unida a un fragmento del texto. Tiene los siguientes atributos:
resp, type y value.
- <interpGrp>
- recoge diferentes etiquetas <interp>.
- <item>
- contiene un componente de una lista.
- <keywords>
- contiene una lista de palabras clave o frases que
identifican el tema o naturaleza de un texto; si las palabras clave vienen de
un vocabulario controlado, este debe ser identificado en el atributo
scheme.
- <kw>
- contiene una palabra clave en un lenguaje
formal.
- <l>
- contiene un único verso, aunque pueda estar
incompleto.
- <label>
- contiene el título asociado al elemento de una
lista; en glosarios, indica el término definido.
- <langUsage>
- describe los idiomas, dialectos, registros, etc., que
aparecen en un texto.
- <lb>
- marca el inicio de una nueva línea
(tipográfica) según alguna edición o versión del
texto.
- <lg>
- contiene un grupo de versos que funcionan como una
unidad formal, p. ej., una estrofa, refrán, etc.
- <list>
- contiene una secuencia de elementos organizada como
una lista, ya sea numerada, con símbolos o de otro tipo.
- <listBibl>
- contiene una lista de citas bibliográficas de
cualquier tipo.
- <mentioned>
- marca palabras o frases mencionadas o citadas, no
usadas.
- <milestone>
- marca el límite entre secciones de un texto,
tal y como se indica en los cambios de un sistema de referencia
estándar. Tiene los siguientes atributos: ed (edición),
unit (página, etc.) y n (nuevo valor).
- <name>
- contiene un nombre propio o una frase nominal. Sus
atributos pueden indicar su tipo, como una forma nomalizada, o asociarlo con
una persona o cosa concreta por medio de un identificador único.
- <note>
- contiene una nota o anotación, con atributos
que indican el tipo, lugar y fuente de la nota.
- <notesStmt>
- agrupa todas las notas que den información
sobre un texto adicional al indicado en otras partes de la descripción
bibliográfica.
- <num>
- contiene un número, escrito en cualquier
forma, con un valor normalizado en el atributos value.
- <opener>
- agrupa el dateline, byline,
salute y las frases similares que aparecen como un grupo preliminar al
comienzo de una división, especialmente de una carta.
- <orig>
- contiene la forma original de una lectura, para la
cual se provee una forma regularizada en el atributo reg.
- <p>
- indica los párrafo en prosa.
- <pb>
- marca el límite entre una página y la
siguiente según un sistema de referencia estándar.
- <principal>
- proporciona el nombre del investigador principal
responsable de la creación de un texto electrónico.
- <profileDesc>
- provee una descripción detallada de los
aspectos no bibliográficos de un texto, específicamente los
idiomas y dialectos usados, la situación en que se creó, los
participantes,...
- <projectDesc>
- describe detalladamente el objetivo o
propósito por el que se ha etiquetado un archivo electrónico,
junto con cualquier otra información relevante relativa al proceso por
el que se ha juntado o creado.
- <ptr>
- un puntero a otro sitio del documento en
función de uno o más elementos identificables.
- <publicationStmt>
- agrupa información relativa a la
publicación o distribución de un texto ya sea electrónico
o de otro tipo.
- <publisher>
- da el nombre de la organización responsable de
la edición o distribución de un elemento
bibliográfico.
- <pubPlace>
- contiene el nombre del lugar donde se publicó
un elemento bibliográfico.
- <q>
- contiene una cita.
- <ref>
- una referencia a otro sitio del documento, en
función de uno o más elementos identificables, posiblemente
modificados por un texto o comentario adicional.
- <refsDecl>
- especifica cómo se construyen las referencias
canónicas para este texto.
- <reg>
- contiene una lectura que ha sido regularizada o
normalizada en algún sentido; la lectura original puede ofrecerse en el
atributo orig.
- <rendition>
- da información sobre el formato pretendido de
uno o más elementos.
- <resp>
- contiene una frase que describe la naturaleza de la
responsabilidad intelectual de una persona.
- <respStmt>
- proporciona una enunciación o
declaración de responsabilidad de alguien responsable del contenido
intelectual de un texto, edición, grabación o serie, donde los
elementos especializados para los autores, editores, etc., no son suficientes o
no pueden emplearse.
- <revisionDesc>
- resume la historia de las revisiones de un
archivo.
- <row>
- contiene una fila de una tabla.
- <rs>
- contiene un nombre general o cadena de referencia.
Sus atributos pueden indicar su tipo, de una forma normalizada, o asociarlo a
una persona o cosa concreta por medio de identificadores únicos.
- <s>
- identifica una "unidad-oración"
(s-unit) en un documento, para establecer un sencillo esquema
canónico de referencia que cubra todo el texto.
- <salute>
- contiene una salutación o saludo previo al
prólogo, carta dedicatoria u otra división textual, o la
salutación al final de una carta, prefacio, etc.
- <samplingDecl>
- contiene una descripción en prosa del motivo y
métodos usados en el muestreo de textos para la creación de un
corpus o colección.
- <seg>
- identifica un fragmento de texto dentro de un
documento para que pueda enlazarse. El atributo type clasifica el
segmento.
- <series>
- contiene información sobre la serie en que
apareció un libro u otro elemento bibliográfico.
- <seriesStmt>
- agrupa información sobre la serie, si
hubiera, a la que pertenece la publicación.
- <sic>
- contiene texto reproducido aunque aparentemente sea
incorrecto o inexacto.
- <signed>
- contiene una salutación de cierre, etc., anexa
al prólogo, carta dedicatoria u otra división textual.
- <soCalled>
- contiene una palabra o frase en la que el autor o
narrador niega su responsabilidad, por ejemplo mediante el uso de comillas o
cursiva.
- <sourceDesc>
- proporciona una descripción
bibliográfica del (los) texto(s) copia a partir de los cuales se ha
generado o ha surgido el texto electrónico.
- <sp>
- contiene un parlamento en un texto dramático o
en un pasaje presentado como tal, ya esté en prosa o en verso, con el
atributo who que identifica al hablante.
- <speaker>
- contiene un tipo especial de encabezado o
rótulo, en el que se da el nombre de uno o más hablantes de un
texto o fragmento dramático.
- <sponsor>
- especifica el nombre de una organización o
institución patrocinadora.
- <stage>
- contiene cualquier tipo de acotación en un
texto o fragmento dramático.
- <table>
- contiene texto mostrado en forma de tabla, con filas
y columnas.
- <tagsDecl>
- provee información detallada sobre el
etiquetado aplicado a un documento SGML.
- <tagUsage>
- proporciona información sobre el uso de un
elementos específico dentro del ampli <text> de un
documento TEI.
- <taxonomy>
- define a tipología usada para clasificar
textos implícitamente, por medio de una cita bibliográfica, o
explícitamente con una taxonomía estructurada.
- <term>
- contiene una palabra o expresión que se
considera un término técnico.
- <textClass>
- agrupa información que describe la naturaleza
o tema del texto según un esquema de clasificación
estándar, thesaurus, etc.
- <time>
- contiene una frase que define una hora del día
en cualquier formato, con un valor normalizado en el atributo
value.
- <title>
- contiene el título de una obra, ya sea un
artículo, libro, periódico o una serie, incluyendo cualquier
título alternativo o subtítulos.
- <titlePage>
- contiene la portada (o página que contiene el
título) de un texto, ya aparezca en el front o en el
back.
- <titlePart>
- contiene una susubsección o división
del título de una obra, como se indica en la portada; también se
usa para fragmentos libres de la portada que no son parte del título del
documento, de la atribución de autoría, etc.
- <titleStmt>
- agrupa información sobre el título de
una obra y de los responsables de su contenido intelectual.
- <trailer>
- contiene una título o pie de cierre que
aparece al final de una división de un texto.
- <unclear>
- contiene una palabra, frase, o pasaje que no puede
transcribirse con certeza porque es ilegible o inaudible en la fuente.
- <xptr>
- define un puntero a otra posición en el mismo
documento o a otro documento externo.
- <xref>
- define un puntero a otra posición en el mismo
documento o a otro documento externo, posiblemente modificado por un texto o
comentario adicional.
22
Referencias
Este
apéndice contiene una lista de referencias bibliográficas de
obras sobre SGML y temas relacionados, presentada también para mostrar
el uso del elemento <bibl> analizado en la sección
13 Citas bibliográficas.
<listBibl>
<bibl>ALA (American Library Association). <title>ALA-LC
Romanization Tables: Transliteration Schemes for Non-Roman
Scripts</title>, approved by the Library of Congress and the American
Library Association, tables compiled and edited by Randall K. Barry.
Washington: Library of Congress, 1991.
</bibl>
<bibl>ANSI (American National Standards Institute). <title>ANSI
X3.4-1986. American National Standard for Information Systems --- Coded
Character Sets --- 7-bit American National Standard Code for Information
Interchange (7-bit ASCII).</title> [New York]: ANSI, 1986.
</bibl>
<bibl>
<author>Barnard, David, et al.</author>
<title level=a>SGML-Based Markup for Literary Texts.</title>
<title>Computers and the Humanities</title>
<biblScope>22 (1988): 265-76.</biblScope>
</bibl>
<bibl>
<author>Barron, David</author>
<title level=a>Why use SGML?</title>
<title>Electronic Publishing
Origination, Dissemination and Design</title>
<biblScope>2.1 (April 1989): 3-24.</biblScope>
</bibl>
<bibl>
<author>Coombs, James H., Allen H. Renear, and Steven J.
DeRose.</author> <title level=a>Markup Systems and the Future of
Scholarly Text Processing.</title> <title>Communications of the
ACM</title>
<biblScope>30.11 (November 1987): 933-947.</biblScope>
</bibl>
<bibl>
<editor>Cover, Robin C., et al.</editor>
<title>A Bibliography on Structured Text:
Technical Report 90-281</title>
<publisher>Queen's University,</publisher>
<pubPlace>Kingston, Ont.</pubPlace>
<date>June 1990</date>
<note place=inline>A current version of this bibliography
is maintained at <code>http://www.sil.org/sgml/sgml.html</code>.
</bibl>
<bibl>Goldfarb, Charles F., <title>The SGML Handbook.</title>
Oxford: Clarendon Press, 1990.</bibl>
<bibl>
<author>van Herwijnen, Eric.</author>
<title>Practical SGML.</title>
<publisher>Kluwer Academic Publishers</publisher>
<date>1990; 2d ed. 1994.</date>
</bibl>
<bibl>ISO (International Organization for Standardization).
<title>ISO 8859-1: 1987 (E). Information processing --- 8-bit
Single-Byte Coded Graphic Character Sets --- Part 1: Latin Alphabet No.
1.</title> (<title>Traitement de l'information --- Jeux de caracte``res
graphiques codés sur un seul octet --- Partie 1: Alphabet latin no
1.</title>) First edition --- 1987-02-15. [Geneva]: International
Organization for Standardization, 1987.
</bibl>
<bibl>ISO (International Organization for Standardization).
<title>ISO 8879-1986 (E). Information processing --- Text and Office
Systems --- Standard Generalized Markup Language (SGML).</title> First
edition --- 1986-10-15. [Geneva]: International Organization for
Standardization, 1986.
</bibl>
<bibl>ISO (International Organization for Standardization).
<title>ISO 8879:1986 / A1:1988 (E). Information processing --- Text and
Office Systems --- Standard Generalized Markup Language (SGML),
Amendment 1.</title> Published 1988-07-01.
[Geneva]: International Organization for Standardization, 1988.
</bibl>
<bibl>ISO (International Organization for Standardization).
<title>ISO/TR 9573-1988(E). Information processing---SGML support
facilities---Techniques for using SGML.</title> Final text of
1988-09-12.
</bibl>
<bibl>ISO (International Organization for Standardization), and IEC
(International Electrotechnical Commission). <title>ISO/IEC 10646-1:
1993. Information technology --- Universal Multiple-Octet Coded
Character Set (UCS) --- Part 1: Architecture and Basic Multilingual
Plane.</title>
[Geneva]: International Organization for
Standardization, 1993.
</bibl>
<bibl>ISO (International Organization for Standardization), and IEC
(International Electrotechnical Commission).
<title>ISO/IEC 10744: 1992. Information
Technology --- Hypermedia/Time-based Structuring Language
(HyTime).</title>
[Geneva]: International Organization for Standardization, 1992.
</bibl>
<bibl>
Langendoen, D. Terence, and Gary F. Simons.
<title level=a>A Rationale for the TEI
Recommendations for Feature-Structure Markup.</title>
<title>Computers and the Humanities</title>
(1995; in press).
</bibl>
<bibl>
<author>Warmer, J., and S. van Egmond</author>
<title level=a>The implementation of the Amsterdam
SGML parser.</title>
<title>Electronic Publishing
Origination, Dissemination and Design</title>
<biblScope>2.2 (July 1989): 65-90.</biblScope>
</bibl>
</listBibl>
Comentarios, sugerencias y
críticas a:
Manuel Sánchez Quero |