Indische Schriften in Unicode

Die indischen Schriften in Unicode umfassen den indischen Schriftenkreis und damit nicht nur einen großen Teil der in Indien verwendeten Schriften, sondern auch weitere Schriften, die in Südostasien verwendet werden. Auch weitere indische Schriften, die nicht von der Brahmi-Schrift abstammen, sind in Unicode kodiert. Die korrekte Darstellung dieser Schriften erfordert teilweise komplexe Algorithmen, die durch einige Steuerzeichen beeinflusst werden können.

Gemeinsamkeiten

Die indischen Schriften gehören zur Klasse der Abugida, viele von ihnen haben einen sehr ähnlichen Aufbau. Konsonanten können in zwei Arten auftreten: Zum einen als lebendige Konsonanten, die einen Vokal tragen. Dies kann der inhärente Vokal sein, oder ein anderer, abhängiger Vokal. Zum anderen gibt es tote Konsonanten, die keinen Vokal tragen. Neben den abhängigen Vokalen gibt es auch eigenständige.

Ein Konsonant mit abhängigem Vokal kann auf verschiedene Weisen dargestellt werden. Im einfachsten Fall ergänzt das Vokalzeichen das Konsonantenzeichen vergleichbar zu Buchstaben mit diakritischen Zeichen. Das Vokalzeichen kann dabei an unterschiedlichen Positionen, auch vor dem Konsonant erscheinen. In einigen Fällen besteht das Vokalzeichen aus zwei getrennten Teilen. Auch ein eigenes Zeichen für die Kombination aus Konsonant und Vokalzeichen ist möglich.

Ein toter Konsonant kann ebenfalls auf mehrere Arten dargestellt werden. Häufig bildet er mit dem folgenden Konsonanten eine Ligatur. Eine weitere Möglichkeit besteht darin, ihn in der sogenannten Halbform darzustellen. Dies ist eine aus dem Konsonantenzeichen abgeleitete Form, die man als den Grundbestandteil ohne die visuelle Repräsentation des inhärenten Vokals interpretieren kann. Eine andere Möglichkeit ist es, den toten Konsonanten durch ein Virama genanntes Zusatzzeichen zu kennzeichnen.

Unicode kodiert für alle indischen Schriften getrennt folgende Zeichen: Konsonantenzeichen und eigenständige Vokalzeichen werden als gewöhnliche Zeichen kodiert, Zeichen für abhängige Vokale als kombinierende Zeichen. Ebenfalls als kombinierendes Zeichen wird das Virama kodiert, das einen Konsonanten als toten Konsonanten kennzeichnet. Damit ist nicht automatisch festgelegt, wie dieser darzustellen ist, insbesondere muss nicht jede Kombination aus Konsonant und Virama mit einem sichtbaren Virama dargestellt werden. Vielmehr gibt es für jede Sprache eine Reihe von Regeln, die festlegen, welche Folgen von toten und lebendigen Konsonanten auf welche Weise dargestellt werden soll. Für die korrekte Darstellung muss der eingesetzte Font also über die notwendigen Glyphen verfügen. Ein weiteres kombinierendes Zeichen ist das Nukta.

Um eine bestimmte Darstellung eines toten Konsonanten explizit auszuwählen, werden in Unicode die beiden Steuerzeichen ZWJ (Breitenloser Verbinder) und ZWNJ (breitenloser Nichtverbinder) verwendet. Folgt einem toten Konsonanten ein ZWJ, so wird dieser in der Halbform dargestellt, folgt ihm ein ZWNJ, so wird ein sichtbares Virama verwendet.

Unicode folgt damit dem indischen Standard ISCII-1988 sowohl im Prinzip der Kodierung als auch in der relativen Position der einzelnen Zeichen. Darüber hinaus kodiert Unicode aber noch weitere Zeichen, insbesondere Ziffern für die einzelnen Schriften.

Kodierte Schriften

Die folgenden indischen Schriften sind auch im Standard ISCII-1988 kodiert und folgen alle sehr eng den obigen Darstellungsregeln.

SchriftUnicodeblock
DevanagariDevanagari, Devanagari, erweitert, Vedische Erweiterungen
Bengalische SchriftBengalisch
Gurmukhi-SchriftGurmukhi
Gujarati-SchriftGujarati
Oriya-SchriftOriya
Tamilische SchriftTamilisch
Telugu-SchriftTelugu
Kannada-SchriftKannada
Malayalam-SchriftMalayalam

Die folgenden Schriften, die in Südasien verwendet werden oder wurden, stammen ebenfalls von der Brahmischrift ab, sind aber nicht im Standard ISCII-1988 kodiert und weichen in der Darstellung teilweise von den obigen Regeln ab.

SchriftUnicodeblock
Singhalesische SchriftSinghalesisch
Tibetische SchriftTibetisch
Lepcha-SchriftLepcha
Phagpa-SchriftPhagspa
Limbu-SchriftLimbu
Sylheti NagariSyloti Nagri
Kaithi-SchriftKaithi
Saurashtri-SchriftSaurashtra
Sharada-SchriftSharada
Takri-SchriftTakri
Chakma-SchriftChakma
Meitei-MayekMeitei-Mayek, Meitei-Mayek, Erweiterungen
Sorang-SompengSorang-Sompeng
Brahmi-SchriftBrahmi

Auch außerhalb von Südasien werden Schriften des indischen Schriftenkreises verwendet:

SchriftUnicodeblock
Thailändische SchriftThailändisch
Laotische SchriftLaotisch
Birmanische SchriftBirmanisch, Birmanisch, erweitert-A, Birmanisch, erweitert-B
Khmer-SchriftKhmer, Khmer-Symbole
Lanna-SchriftLanna
Cham-SchriftCham
BaybayinTagalog
Hanunó'oHanunóo
Buid-SchriftBuid
Tagbanuwa-SchriftTagbanuwa
LontaraBuginesisch
Balinesische SchriftBalinesisch
Javanische SchriftJavanisch
Rejang-SchriftRejang
Batak-SchriftBatak
Sundanesische SchriftSundanesisch, Sundanesisch, Ergänzung

Zwei indische Schriften fallen aus diesem Rahmen. Dies ist zum einen das im Unicodeblock Ol Chiki kodierte Ol Chiki, eine Alphabet-Schrift, und die im Unicodeblock Kharoshthi kodierte Kharoshthi-Schrift, die zwar wie die anderen Schriften eine Abugida-Schrift ist, aber von rechts nach links geschrieben wird.

Kritik

Die Unicode-Kodierung der Tamil-Schrift wurde von einigen Organisationen kritisiert, darunter auch die Regierung von Tamil Nadu. Stattdessen wurde mit TACE-16 eine alternative Kodierung vorgeschlagen, die die einzelnen Silben kodiert, statt Konsonanten und Vokalzeichen. Diese Kodierung erlaubt insbesondere eine korrekte Sortierung ohne Anwendung komplexer Algorithmen wie dem Unicode Collation Algorithm. Eine Änderung am Unicode-Standard wurde nicht durchgeführt, da dies den Stabilitätskriterien von Unicode widerspricht.[1]

Quellen

Einzelnachweise

  1. FAQ: Tamil Language and Script, abgerufen am 19. Februar 2013.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.