teidata.language

teidata.language 自然言語を示す属性値の範囲を定義する。 [vi.1. Language Identification]
モジュール tei — The TEI Infrastructure
当該モジュールを使用するもの
クラス:
要素:
Content model
<content>
 <alternate>
  <dataRef name="language"/>
  <valList>
   <valItem ident=""/>
  </valList>
 </alternate>
</content>
宣言
<rng:define name="teidata.language">
 <rng:choice>
  <rng:data type="language"/>
  <rng:choice>
   <rng:value/>
  </rng:choice>
 </rng:choice>
</rng:define>
teidata.language = xsd:language | ( "" )
解説

当該属性値は、 BCP 47 で定義されている言語‘タグ’になる。 現行のBCPには、RFC4646とRFC4647の内容が含まれている。 今後は、他のIETF文書も採用されるかもしれない。

BCP 47にある‘言語タグ’は、ハイフン (-, U+002D)で区切られた一連の 下位タグから構成されている。下位タグは、以下の順番 らなる。下位タグは、初めの1つは必須で、あとは選択的である。 variantとextensionは複数回、他は1回のみ出現出現する。この下位タグ のグループは繰り返し可能である。

language
IANAの言語コード。この殆どは、該当言語が既にあれば、ISO 639の2文字 (以下、この場合の文字はラテン文字)言語コードと同じである。利用可能 な言語下位タグのリストは http://www.iana.org/assignments/language-subtag-registry にある。言語コードは、小文字で書かれることが推奨されている。
script
ISO 15924による文字を示すコード。4文字から構成され、冒頭文字は大文 字で、残り3文字は小文字で書かれることが推奨されている。このコード は、ユニコードコンソーシアムで管理され、 http://unicode.org/iso15924/iso15924-codes.htmlか ら入手することができる。IETFでは、不要であれば当該コードを省略する ことを推奨している。
region
ISO 3166またはUN M.49による国または地域コード。このコードはIANAに 登録されている(但し全てではない。例えば、UNコードには経済圏や、 ISO 3166の2文字コードで既に登録されているところは含まれていない)。 ISOコードは、2文字から構成され、大文字で書かれることが推奨されてい る。このコードは、 http://www.iso.org/iso/en/prods-services/iso3166ma/02iso-3166-code-lists/index.htmlにある。 またUNコードは、3文字から構成されている。このコードは、 http://unstats.un.org/unsd/methods/m49/m49.htmにあ る。
variant
IANAにある登録値。このコードは、他の下位タグでは対応できない、追加的であるがよく知られている、ある言語 や方言の種類を示すために使用される
extension
いち文字、ハイフン、追加下位タグの順番で、拡張情報が示される。 これは、BCP 47が将来拡張された時のためある。現時点ではそのような 拡張はない。
private use
xXで始まる(すなわち、x-)下位タ グで示される拡張情報は、関連する団体間で決められた範囲の意味を持つ。 このコードは大文字で書かれるべきである。これは、RFC4646aで使われて いるタグとの相互運用性を保つためである。 このタグを使用してTEI準拠の文書を作成するには、要素 languageをTEIヘダー中に記述しなければならない。

上記記述形式には、2つの例外がある。ひとつは、ここにある言語タグは、 IANAにある統語規則に違反しているものがある。 これはIANAでは昔の規定を‘継承している’からであ る。

ふたつめは、言語タグを、下位タグprivateだけで構成することができる ことである。x-で始まるタグの内容は、IETFにある規定に も当該TEIガイドラインにある規定にも従う必要はない。他の言語タグと 同様に、このタグを使用した場合には、TEIヘダーにある要素 languageにこのタグを記述しなければならない。

言語コードには、以下のようなものがある。

sn
ショナ語
zh-TW
中国語、台湾
zh-Hant-HK
中国語、繁体字、香港
en-SL
英語、シエラレオネ共和国
pl
ポーランド語
es-MX
スペイン語、メキシコ
es-419
スペイン語、ラテンアメリカ

W3Cの国際化活動では、BCP 47の解説を以下に用意している。 HTMLとXMLで使用される言語タグ.