teidata.language

teidata.language 自然言語を示す属性値の範囲を定義する. [vi.1. Language Identification]
モジュール tei — The TEI Infrastructure
当該モジュールを使用するもの
クラス:
要素:
Content model
<content>
 <alternate>
  <dataRef name="language"/>
  <valList>
   <valItem ident=""/>
  </valList>
 </alternate>
</content>
宣言
<rng:define name="teidata.language">
 <rng:choice>
  <rng:data type="language"/>
  <rng:choice>
   <rng:value/>
  </rng:choice>
 </rng:choice>
</rng:define>
teidata.language = xsd:language | ( "" )
解説

当該属性値は, BCP 47 で定義されている言語‘タグ’になる. 現行のBCPには,RFC4646とRFC4647の内容が含まれている. 今後は,他のIETF文書も採用されるかもしれない.

BCP 47にある‘言語タグ’は,ハイフン (-, U+002D)で区切られた一連の 下位タグから構成されている.下位タグは,以下の順番 らなる.下位タグは,初めの1つは必須で,あとは選択的である. variantとextensionは複数回,他は1回のみ出現出現する.この下位タグ のグループは繰り返し可能である.

language
IANAの言語コード.この殆どは,該当言語が既にあれば,ISO 639の2文字 (以下,この場合の文字はラテン文字)言語コードと同じである.利用可能 な言語下位タグのリストは http://www.iana.org/assignments/language-subtag-registry にある.言語コードは,小文字で書かれることが推奨されている.
script
ISO 15924による文字を示すコード.4文字から構成され,冒頭文字は大文 字で,残り3文字は小文字で書かれることが推奨されている.このコード は,ユニコードコンソーシアムで管理され, http://unicode.org/iso15924/iso15924-codes.htmlか ら入手することができる.IETFでは,不要であれば当該コードを省略する ことを推奨している.
region
ISO 3166またはUN M.49による国または地域コード.このコードはIANAに 登録されている(但し全てではない.例えば,UNコードには経済圏や, ISO 3166の2文字コードで既に登録されているところは含まれていない). ISOコードは,2文字から構成され,大文字で書かれることが推奨されてい る.このコードは, http://www.iso.org/iso/en/prods-services/iso3166ma/02iso-3166-code-lists/index.htmlにある. またUNコードは,3文字から構成されている.このコードは, http://unstats.un.org/unsd/methods/m49/m49.htmにあ る.
variant
IANAにある登録値.このコードは,他の下位タグでは対応できない,追加的であるがよく知られている,ある言語 や方言の種類を示すために使用される
extension
いち文字,ハイフン,追加下位タグの順番で,拡張情報が示される. これは,BCP 47が将来拡張された時のためある.現時点ではそのような 拡張はない.
private use
xXで始まる(すなわち,x-)下位タ グで示される拡張情報は,関連する団体間で決められた範囲の意味を持つ. このコードは大文字で書かれるべきである.これは,RFC4646aで使われて いるタグとの相互運用性を保つためである. このタグを使用してTEI準拠の文書を作成するには,要素 languageをTEIヘダー中に記述しなければならない.

上記記述形式には,2つの例外がある.ひとつは,ここにある言語タグは, IANAにある統語規則に違反しているものがある. これはIANAでは昔の規定を‘継承している’からであ る.

ふたつめは,言語タグを,下位タグprivateだけで構成することができる ことである.x-で始まるタグの内容は,IETFにある規定に も当該TEIガイドラインにある規定にも従う必要はない.他の言語タグと 同様に,このタグを使用した場合には,TEIヘダーにある要素 languageにこのタグを記述しなければならない.

言語コードには,以下のようなものがある.

sn
ショナ語
zh-TW
中国語,台湾
zh-Hant-HK
中国語,繁体字,香港
en-SL
英語,シエラレオネ共和国
pl
ポーランド語
es-MX
スペイン語,メキシコ
es-419
スペイン語,ラテンアメリカ

W3Cの国際化活動では,BCP 47の解説を以下に用意している. HTMLとXMLで使用される言語タグ.