Teletext-Zeichensätze (ETSI EN 300 706)
Die folgenden Tabellen beschreiben die in ETSI EN 300 706 definierten 7-Bit-Zeichensätze des in Europa verwendeten Teletext-Standards.
Allgemeines
Die jeweils ersten 32 Positionen (00hex bis 1Fhex) der Zeichensätze sind nicht definiert. Diese Zeichencodes sind aber in der einfachen Level-1-Teletext-Seite als Steuerzeichen definiert.
Das Zeichen 24hex stellt im lateinischen G0-Standard-Primärzeichensatz das allgemeine Währungssymbol (¤) und in den anderen G0-Primärzeichensätzen das Dollarzeichen ($) dar.
Das Zeichen 2Ahex in den G0-Primärzeichensätzen stellt abhängig von der Ansteuerung das Sternchen (*) oder das At-Zeichen (@) dar.
Das ausgefüllte Rechteck an der Position 7Fhex in den G0-Primärzeichensätzen und in manchen G2-Ergänzungszeichensätzen ist so groß wie die maximale Ausdehnung aller Buchstaben ohne Unterlänge. Es besitzt keine festgelegte Unicode-Zuordnung und ist hier wie das Zeichen FEhex (■) in DOS-Zeichensätzen codiert, was auch bei vielen softwarebasierten Decodern gebräuchlich ist. Das genaue Layout des Unicode-Zeichens ist stark von der Schriftart abhängig, aber zumindest in der Schriftfamilie „Courier“ entspricht das ausgefüllte Quadrat (■) mit der Unicodenummer 25A0hex weitgehend dem in ETSI EN 300 706 angegebenen Beispiellayout. Allerdings ist das Rechteck im arabischen G0-Primärzeichensatz mit etwas Unterlänge wie der arabische Buchstabe Alif maqṣūra (ﻯ) an der Position 70hex dargestellt, was aber auch nicht bei allen Decodern der Fall ist.[1]
Die G2-Ergänzungszeichensätze und der G3-Zeichensatz „Hochauflösende Grafik“ werden ab Teletext-Präsentationslevel 1.5 unterstützt. Bei vielen Level-1.5-Decodern ist der Zeichenvorrat dieser Zeichensätze aber noch eingeschränkt.
Legende
A | Γ | Buchstabe des Grundalphabets (lateinische / nicht-lateinische Schrift) |
ß | ά | Sonderbuchstabe oder Ergänzung |
` | ΄ | Diakritisches Zeichen (alleinstehend) |
ò | Diakritisches Zeichen (kombinierend) | |
2 | ٢ | Ziffer des Zahlensystems |
½ | Zahlzeichen | |
@ | ₪ | Interpunktions- oder Sonderzeichen |
o̲ | Kombinierendes Sonderzeichen | |
▌ | ◣ | Grafik- oder Rahmenelement (in Unicode definiert / nicht definiert) |
␠ | RLM | Leer- oder Steuerzeichen |
Undefiniertes Zeichen | ||
| ¦ | Zeichen mit Layoutvariation (oftmals der niedrigen Auflösung geschuldet oder historisch bedingt[2] ) | |
41 | 41 | Siehe Anmerkungen zur Tabelle (eindeutige / verschiedene Codierungen) |
Α A | ﺏ ﺐ | Kontextabhängige Bedeutung (identisches Layout / passende Form) |
У (Y) | ﺁ (ﺂ) | Kontextabhängige Bedeutung (unterschiedliches Layout / fehlende Form) |
Ë|$ | Verschiedene Codierungen (von der Ansteuerung oder dem Decoder abhängig) |
Bei den Unicodenummern ist jeweils der offizielle Unicode-Name als (ungültiger) Weblink angegeben, damit dieser als Hinweistext angezeigt werden kann – eine bessere Möglichkeit dafür sieht die Wikisyntax nicht vor. Bei Zeichen ohne Unicode-Zuordnung („N/A“) wird hier ein beschreibender Name verwendet, der sich an den Namen ähnlicher Unicode-Zeichen orientiert.
Lateinisch
Die lateinischen G0- (Variante „Standard“) und G2-Zeichensätze sind im Wesentlichen identisch mit dem 8-Bit-Zeichensatz ISO 6937-2:1983/Add 1:1989 (ISO-IR-142) ergänzt durch die zwei Zeichen A6hex (#) und A8hex (¤) aus dem äquivalenten 8-Bit-Zeichensatz ITU T.61 (siehe dazu auch die aktuelle Fassung ISO 6937:2001), wobei der G2-Ergänzungszeichensatz den Zeichen A0hex bis FFhex entspricht.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
# ⋕ 0023 |
¤ 00A4 |
% 0025 |
& 0026 |
' ’ 0027 |
( 0028 |
) 0029 |
*∗|@ 002A|0040 |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ | @ 0040 |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
I 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ | P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
6_ | ` ‵ 0060 |
a 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
i 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ | p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| ¦ 007C |
} 007D |
~ ~ 007E |
■ 25A0 |
Das Zeichen 7Fhex (■) ist abweichend zu ISO 6937 codiert.
Das doppelte Anführungszeichen (") an der Position 22hex ist in ETSI EN 300 706 im Beispiellayout typografisch korrekt als schließendes Anführungszeichen im Englischen (”) mit der Unicodenummer 201Dhex dargestellt. Allerdings sollte das Zeichen trotzdem gemäß ISO 6937 als neutrale Variante codiert werden, um optisch und semantisch besser auch als öffnendes Anführungszeichen im Englischen (“) verwendet werden zu können. Außerdem ist die typografisch korrekte Variante zusätzlich an der Position 3Ahex im lateinischen G2-Ergänzungszeichensatz mit anderem Beispiellayout eher als schließendes Anführungszeichen dargestellt.
Das Nummernzeichen (#) an der Position 23hex ist in ETSI EN 300 706 im Beispiellayout mit senkrechten Strichen dargestellt, wobei es sich aber nur um eine Layoutvariation handelt, die wohl der niedrigen Auflösung geschuldet sein dürfte.
Das Hochkomma (') an der Position 27hex ist in ETSI EN 300 706 im Beispiellayout typografisch korrekt dargestellt und könnte auch mit den optisch passenderen, alternativen Unicode-Zeichen schließendes einfaches Anführungszeichen im Englischen (’) mit der Unicodenummer 2019hex oder modifizierendes Hochkomma (ʼ) mit der Unicodenummer 02BChex codiert werden, was aber beides abweichend zu ISO 6937 wäre und bei einer Verwendung als öffnendes Anführungszeichen im Englischen (‘) optisch und semantisch nicht passen würde. Außerdem ist die typografisch korrekte Variante zusätzlich an der Position 39hex im lateinischen G2-Ergänzungszeichensatz mit anderem Beispiellayout eher als schließendes Anführungszeichen dargestellt.
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Das Sternchen (*) an der Position 2Ahex ist in ETSI EN 300 706 im Beispiellayout groß, sechsstrahlig, auf einem Strahl stehend und vertikal zentriert dargestellt und könnte auch mit dem optisch passenderen, alternativen Unicode-Zeichen Sternchen-Operator (∗) mit der Unicodenummer 2217hex codiert werden, was aber abweichend zu ISO 6937 wäre.
Der Kurzstrich (-) an der Position 2Dhex kann entsprechend EBU Tech 3232-a und ITU T.61 auch kontextabhängig als Bindestrich (‐) mit der Unicodenummer 2010hex oder als Minuszeichen (−) mit der Unicodenummer 2212hex codiert werden. Außerdem kann das Zeichen auch als Gedankenstrich (–) mit der Unicodenummer 2013hex verwendet werden.[3] Allerdings sollte für den langen Gedankenstrich im Englischen (—) mit der Unicodenummer 2014hex besser die horizontale Linie (―) an der Position 60hex in der Variante „Englisch“ und an der Position 50hex im lateinischen G2-Ergänzungszeichensatz oder zwei aufeinanderfolgende Kurzstriche verwendet werden.[4][5]
Der Großbuchstabe I an der Position 49hex kann als Großbuchstabe für den Kleinbuchstaben i an der Position 69hex und als Großbuchstabe für den Kleinbuchstaben i ohne Punkt (ı) an der Position 60hex bzw. 5Fhex in den beiden Varianten „Türkisch“ und „Rumänisch“, sowie an der Position 75hex im lateinischen G2-Ergänzungszeichensatz verwendet werden. Der Kleinbuchstabe i an der Position 69hex kann als Kleinbuchstabe für den Großbuchstaben I an der Position 49hex und als Kleinbuchstabe für den Großbuchstaben I mit Punkt (İ) an der Position 40hex in der Variante „Türkisch“ und für die entsprechende Kombination im lateinischen G2-Ergänzungszeichensatz verwendet werden. Auch in Unicode wird jeweils nicht zwischen den beiden optisch identischen Zeichen unterschieden.[6]
Der Zirkumflex (^) an der Position 5Ehex ist in ETSI EN 300 706 im Beispiellayout groß und hochgestellt dargestellt, so wie es auch in modernen Druckschriften üblich ist.[7]
Der Unterstrich (_) an der Position 5Fhex ist in ETSI EN 300 706 im Beispiellayout links und rechts nicht verbindend dargestellt, was aber in modernen Druckschriften unüblich ist.[8]
Das alleinstehende diakritische Zeichen Gravis (`) an der Position 60hex ist in ETSI EN 300 706 im Beispiellayout von der Größe und Höhenlage passend als vertikal gespiegeltes Gegenstück zur typografisch korrekten Form des Hochkommas (’) an der Position 27hex dargestellt, hat aber noch die gerade Linienform und Schräglage eines Gravis. Trotzdem könnte das Zeichen eventuell auch als öffnendes einfaches Anführungszeichen im Englischen (‛) mit der Unicodenummer 201Bhex verwendet werden, was aber abweichend zu ISO 6937 wäre und semantisch nicht passen würde.[9]
Der senkrechte Strich (|) an der Position 7Chex ist in ETSI EN 300 706 im Beispiellayout in der Mitte unterbrochen (sowie oben und unten nicht verbindend) dargestellt und könnte auch mit dem optisch passenderen, alternativen Unicode-Zeichen unterbrochener Strich (¦) mit der Unicodenummer 00A6hex codiert werden, was aber abweichend zu ISO 6937 wäre. Außerdem handelt es sich dabei nur um eine historisch bedingte Layoutvariation.[10]
Die Tilde (~) an der Position 7Ehex ist in ETSI EN 300 706 im Beispiellayout groß und hochgestellt dargestellt und ist in dieser Form in Unicode nicht als eigenständiges Zeichen definiert. Das alleinstehende diakritische Zeichen Tilde (˜) mit der Unicodenummer 02DChex passt zwar von der Höhenlage, ist aber zu klein. Entsprechend EBU Tech 3232-a und ITU T.101 kann zur Codierung alternativ auch das Unicode-Zeichen Überstrich (‾) mit der Unicodenummer 203Ehex oder eventuell auch das alleinstehende diakritische Zeichen Makron (¯) mit der Unicodenummer 00AFhex verwendet werden, was aber beides abweichend zu ISO 6937 wäre und abweichend zu ITU T.101 üblicherweise links und rechts verbindend ist.[11]
Die Codierung der anderen fett umrahmten Zeichen ist von der Ansteuerung und der ausgewählten nationalen Variante abhängig.
Auswahlbits |
23 | 24 | 40 | 5B | 5C | 5D | 5E | 5F | 60 | 7B | 7C | 7D | 7E | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | 1_ | 2_ | 3_ | 4_ | 6_ | 8_ | ||||||||||||||
Standard | # ⋕ 0023 |
¤ 00A4 |
@ 0040 |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
` ‵ 0060 |
{ 007B |
| ¦ 007C |
} 007D |
~ ~ 007E | |||||||
Tschechisch/Slowakisch | 06 | 16 | 46 | # ⋕ 0023 |
ů 016F |
č 010D |
ť tˇ 0165 |
ž 017E |
ý 00FD |
í 00ED |
ř 0159 |
é 00E9 |
á 00E1 |
ě 011B |
ú 00FA |
š 0161 | ||||
Englisch | 00 | 20 | 80 |
£ 00A3 |
$ 0024 |
@ 0040 |
← 2190 |
½ 00BD |
→ 2192 |
↑ 2191 |
# ⋕ 0023 |
― 2015 |
¼ 00BC |
∥ 2225 |
¾ 00BE |
÷ 00F7 | ||||
Estnisch | 42 | # ⋕ 0023 |
õ 00F5 |
Š 0160 |
Ä 00C4 |
Ö 00D6 |
Ž 017D |
Ü 00DC |
Õ 00D5 |
š 0161 |
ä 00E4 |
ö 00F6 |
ž 017E |
ü 00FC | ||||||
Französisch | 04 | 14 | 24 | 84 |
é 00E9 |
ï 00EF |
à 00E0 |
ë 00EB |
ê 00EA |
ù 00F9 |
î 00EE |
# ⋕ 0023 |
è 00E8 |
â 00E2 |
ô 00F4 |
û 00FB |
ç 00E7 | |||
Deutsch | 01 | 11 | 21 | 41 | # ⋕ 0023 |
$ 0024 |
§ 00A7 |
Ä 00C4 |
Ö 00D6 |
Ü 00DC |
^ 005E |
_ 005F |
° 00B0 |
ä 00E4 |
ö 00F6 |
ü 00FC |
ß 00DF | |||
Italienisch | 03 | 13 | 23 | £ 00A3 |
$ 0024 |
é 00E9 |
° 00B0 |
ç 00E7 |
→ 2192 |
↑ 2191 |
# ⋕ 0023 |
ù 00F9 |
à 00E0 |
ò 00F2 |
è 00E8 |
ì 00EC | ||||
Lettisch/Litauisch | 43 | # ⋕ 0023 |
$ 0024 |
Š 0160 |
ė 0117 |
ę 0119 |
Ž 017D |
č 010D |
ū 016B |
š 0161 |
ą 0105 |
ų 0173 |
ž 017E |
į 012F | ||||||
Polnisch | 10 | # ⋕ 0023 |
ń 0144 |
ą 0105 |
Ż Ƶ 017B |
Ś 015A |
Ł 0141 |
ć 0107 |
ó 00F3 |
ę 0119 |
ż 017C |
ś 015B |
ł 0142 |
ź 017A | ||||||
Portugiesisch/Spanisch | 05 | 25 | ç 00E7 |
$ 0024 |
¡ 00A1 |
á 00E1 |
é 00E9 |
í 00ED |
ó 00F3 |
ú 00FA |
¿ 00BF |
ü 00FC |
ñ 00F1 |
è 00E8 |
à 00E0 | |||||
Rumänisch | 37 | # ⋕ 0023 |
¤ 00A4 |
Ț 021A |
 00C2 |
Ș 0218 |
Ă 0102 |
Î 00CE |
ı 0131 |
ț 021B |
â 00E2 |
ș 0219 |
ă 0103 |
î 00EE | ||||||
Serbisch/Kroatisch/Slowenisch | 35 | # ⋕ 0023 |
Ë 00CB |
Č 010C |
Ć 0106 |
Ž 017D |
Đ 0110 |
Š 0160 |
ë 00EB |
č 010D |
ć 0107 |
ž 017E |
đ 0111 |
š 0161 | ||||||
Schwedisch/Finnisch, Ungarisch | 02 | 12 | 22 | # ⋕ 0023 |
¤ 00A4 |
É 00C9 |
Ä 00C4 |
Ö 00D6 |
Å 00C5 |
Ü 00DC |
_ 005F |
é 00E9 |
ä 00E4 |
ö 00F6 |
å 00E5 |
ü 00FC | ||||
Türkisch | 26 | 66 | Tʟ N/A |
ğ 011F |
İ 0130 |
Ş 015E |
Ö 00D6 |
Ç 00C7 |
Ü 00DC |
Ğ 011E |
ı 0131 |
ş 015F |
ö 00F6 |
ç 00E7 |
ü 00FC |
In den nationalen Varianten sind das Háček (ˇ) und das Breve (˘) bei den Sonderbuchstaben in ETSI EN 300 706 ungenau gleich dargestellt. In den Sprachen der drei Varianten „Tschechisch/Slowakisch“, „Lettisch/Litauisch“ und „Serbisch/Kroatisch/Slowenisch“ wird nur das Háček verwendet, während in den Sprachen der beiden Varianten „Rumänisch“ und „Türkisch“ nur das Breve verwendet wird. Dementsprechend sind die betreffenden Buchstaben in den Varianten codiert.[12]
In der Variante „Tschechisch/Slowakisch“ ist beim Kleinbuchstaben t mit Háček (ť) an der Position 5Bhex in ETSI EN 300 706 das Háček (ˇ) in normaler Form dargestellt, wird aber in modernen Druckschriften beim Kleinbuchstaben t häufig in einer Form ähnlich einem Hochkomma (ʼ) rechts neben dem Grundzeichen dargestellt. Die Codierung ist identisch, da es sich dabei nur um eine Layoutvariation handelt.[13]
Die Variante „Englisch“ ist im Wesentlichen identisch mit dem 7-Bit-Zeichensatz des britischen Viewdata-Standards (ISO-IR-47), nur das Zeichen 5Fhex (#) ist abweichend codiert.
Die beiden Pfeile nach links (←) und rechts (→) an den Positionen 5Bhex und 5Dhex sind in ETSI EN 300 706 im Beispiellayout passend zur horizontalen Linie (―) an der Position 60hex dargestellt und können jeweils am Anfang mit dieser nahtlos verbunden werden. In so einer Kombination sollte die horizontale Linie semantisch passend als horizontale Linienerweiterung (⎯) mit der Unicodenummer 23AFhex codiert werden, wobei das Unicode-Zeichen aber derzeit nur von sehr wenigen Schriftarten (korrekt) unterstützt wird.
Das Doppelkreuz (#) an der Position 5Fhex ist in ETSI EN 300 706 gleich dargestellt wie das Nummernzeichen an der Position 23hex in der Variante „Standard“ und dementsprechend identisch codiert. Das Zeichen ist im Viewdata-Standard als Viewdata-Quadrat (⌗) mit der Unicodenummer 2317hex codiert, das zwar optisch ähnlich ist, aber korrekt dargestellt doch anders aussieht (siehe ISO-IR-47)[14] und eine andere semantische Bedeutung als Abschlusszeichen für Adressen hat, die im Teletext nicht gegeben ist.
Die horizontale Linie (―) an der Position 60hex kann gleichermaßen auch als langer Gedankenstrich im Englischen (—) mit der Unicodenummer 2014hex verwendet werden[4] und ist in ETSI EN 300 706 im Beispiellayout links und rechts verbindend dargestellt.[15]
Der vertikale Doppelstrich an der Position 7Chex ist entsprechend EBU Tech 3232-a als Parallelzeichen (∥) codiert und in ETSI EN 300 706 im Beispiellayout oben und unten nicht verbindend dargestellt. Entsprechend der Zeichenbezeichnung im Viewdata-Standard kann zur Codierung eventuell auch das optisch identische Unicode-Zeichen doppelte vertikale Linie (‖) mit der Unicodenummer 2016hex verwendet werden. Allerdings ist dieses Zeichen gemäß RFC 1345[16] auch dort als Parallelzeichen codiert. Aber unabhängig von der primären Codierung kann das Zeichen gleichermaßen als Parallelzeichen und als doppelte vertikale Linie verwendet werden.
Die Variante „Deutsch“ ist im Wesentlichen identisch mit dem deutschen 7-Bit-Zeichensatz DIN 66003 (ISO-IR-21), nur das Zeichen 60hex (°) ist abweichend codiert.
In der Variante „Lettisch/Litauisch“ sind die beiden Kleinbuchstaben e mit Ogonek (ę) und i mit Ogonek (į) an den Positionen 5Chex und 7Ehex in ETSI EN 300 706 wohl falsch mit Cedille (¸) dargestellt, da diese im Lettischen oder Litauischen nie mit Cedille, dafür aber mit Ogonek (˛) verwendet werden. Eine alternative Codierung ist nicht erforderlich, da die falsch dargestellten Buchstaben nicht einmal im europäischen Raum vorkommen, also wohl auch niemals verwendet werden dürften.[12]
In der Variante „Polnisch“ ist der Großbuchstabe Z mit Überpunkt (Ż) an der Position 5Bhex in ETSI EN 300 706 zwar als Z mit Querstrich (Ƶ) dargestellt, wird aber üblicherweise nicht so codiert, da es sich dabei nur um eine Layoutvariation handelt.[17] Außerdem ist der zugehörige Kleinbuchstabe an der Position 7Bhex auch in ETSI EN 300 706 als z mit Überpunkt (ż) dargestellt.
In der Variante „Rumänisch“ sind die beiden Buchstaben T mit Unterkomma (Ț/ț) und S mit Unterkomma (Ș/ș) an den Positionen 40hex/60hex und 5Chex/7Chex entsprechend der rumänischen Standardisierungsbehörde mit Unterkomma ( ̦ ) codiert (siehe auch ISO 8859-16). Allerdings wurden diese bis Anfang der 1990er Jahre in internationalen Standards lediglich als Layoutvariationen der Buchstaben T mit Cedille (Ţ/ţ) und S mit Cedille (Ş/ş) betrachtet, und auch in ISO 6937 sind nur die Sonderbuchstaben mit Cedille (¸) vorhanden.[18]
In der Variante „Serbisch/Kroatisch/Slowenisch“ stellt das Zeichen 24hex anstelle des Großbuchstabens E mit Trema (Ë) bei manchen Decodern das Dollarzeichen ($) mit der Unicodenummer 0024hex oder den gemeinen Bruch ein Halb (½) mit der Unicodenummer 00BDhex dar.
Die Variante „Schwedisch/Finnisch, Ungarisch“ ist identisch mit dem schwedischen 7-Bit-Zeichensatz SEN 850200 Annex C (ISO-IR-11).
In der Variante „Türkisch“ ist das Zeichen für die türkische Währung (Tʟ) an der Position 23hex in dieser Form nur im Teletext zu finden und wird ansonsten ganz normal mit den zwei einzelnen Großbuchstaben TL dargestellt. Dafür gibt es in Unicode aber verschiedene Währungssymbole, die für die türkische Währung verwendet werden können: das Türkische Lirazeichen (₺) mit der Unicodenummer 20BAhex, das Lirazeichen (₤) mit der Unicodenummer 20A4hex und das Pfundzeichen (£) mit der Unicodenummer 00A3hex.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
$ 0024 |
¥ 00A5 |
# ⋕ 0023 |
§ 00A7 |
¤ 00A4 |
‘ 2018 |
“ 201C |
« 00AB |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
3_ | ° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
µ 00B5 |
¶ 00B6 |
· 00B7 |
÷ 00F7 |
’ 2019 |
” 201D |
» 00BB |
¼ 00BC |
½ 00BD |
¾ 00BE |
¿ 00BF |
4_ |
|
` 0060 |
´ 00B4 |
ˆ 02C6 |
˜ 02DC |
¯ ˉ 00AF |
˘ 02D8 |
˙ 02D9 |
¨ 00A8 |
̣ N/A |
˚ 02DA |
¸ (̦ ) 00B8 (N/A) |
_ 005F |
˝ 02DD |
˛ 02DB |
ˇ 02C7 |
Komb. |
|
ò 0300 |
ó (ģ) 0301 (0327) |
ô 0302 |
õ 0303 |
ō 0304 |
ŏ 0306 |
ȯ 0307 |
ö 0308 |
ọ 0323 |
å 030A |
ç (o̦) 0327 (0326) |
o̲ 0332 |
ő 030B |
ǫ 0328 |
ǒ 030C |
5_ | ― 2015 |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
₠ 20A0 |
‰ 2030 |
∝ 221D |
|
|
|
⅛ 215B |
⅜ 215C |
⅝ 215D |
⅞ 215E |
6_ | Ω 2126 |
Æ 00C6 |
Đ Ð 0110 00D0 |
ª 00AA |
Ħ 0126 |
|
IJ 0132 |
Ŀ 013F |
Ł 0141 |
Ø 00D8 |
Œ 0152 |
º 00BA |
Þ 00DE |
Ŧ 0166 |
Ŋ 014A |
ʼn 0149 |
7_ | ĸ 0138 |
æ 00E6 |
đ 0111 |
ð 00F0 |
ħ 0127 |
ı 0131 |
ij 0133 |
ŀ 0140 |
ł 0142 |
ø 00F8 |
œ 0153 |
ß 00DF |
þ 00FE |
ŧ 0167 |
ŋ 014B |
■ 25A0 |
Die sechs Zeichen 20hex (Leerzeichen), 49hex ( ̣), 56hex (₠), 57hex (‰), 58hex (∝) und 7Fhex (■) sind abweichend zu ISO 6937 und ITU T.61 codiert.
Das Leerzeichen an der Position 20hex kann entsprechend ISO 6937 eventuell auch als geschütztes Leerzeichen mit der Unicodenummer 00A0hex codiert werden. Allerdings ist das Zeilenumbruchverhalten im Teletext ohne Bedeutung.
Die beiden Pfeile nach links (←) und rechts (→) an den Positionen 2Chex und 2Ehex sind in ETSI EN 300 706 im Beispiellayout passend zur horizontalen Linie (―) an der Position 50hex dargestellt und können jeweils am Anfang mit dieser nahtlos verbunden werden. In so einer Kombination sollte die horizontale Linie semantisch passend als horizontale Linienerweiterung (⎯) mit der Unicodenummer 23AFhex codiert werden, wobei das Unicode-Zeichen aber derzeit nur von sehr wenigen Schriftarten (korrekt) unterstützt wird.
Das alleinstehende diakritische Zeichen Gravis (`) an der Position 41hex ist im lateinischen G0-Standard-Primärzeichensatz in ETSI EN 300 706 mit anderem Beispiellayout dargestellt und kann zur Unterscheidung auch mit dem alternativen Unicode-Zeichen modifizierender Gravis (ˋ) mit der Unicodenummer 02CBhex codiert werden. Allerdings sind diese beiden Zeichen in modernen Druckschriften optisch identisch.[9] Passend dazu könnte dann eventuell auch das alleinstehende diakritische Zeichen Akut (´) an der Position 42hex mit dem alternativen Unicode-Zeichen modifizierender Akut (ˊ) mit der Unicodenummer 02CAhex codiert werden, was aber abweichend zu ISO 6937 wäre.
Da die alleinstehenden diakritischen Zeichen Zirkumflex (ˆ) an der Position 43hex und Tilde (˜) an der Position 44hex im lateinischen G0-Standard-Primärzeichensatz in ETSI EN 300 706 mit anderem Beispiellayout dargestellt sind, wird eine optisch passendere, alternative Codierung als in ISO 6937 verwendet (siehe Windows-1252).[7][11]
Das Layout des alleinstehenden diakritischen Unicode-Zeichens Makron (¯) an der Position 45hex ist ebenfalls stark von der Schriftart abhängig und gleicht oftmals eher dem Überstrich (‾), daher müsste zur Codierung eigentlich das optisch passendere, alternative Unicode-Zeichen modifizierendes Makron (ˉ) mit der Unicodenummer 02C9hex verwendet werden, was aber abweichend zu ISO 6937 wäre.[19]
Das diakritische Zeichen in Form eines horizontalen Doppelpunktes (¨) an der Position 48hex kann entsprechend EBU Tech 3232-a und ITU T.61 als Trema und als Umlautpunkte verwendet werden. Auch in Unicode wird nicht zwischen diesen beiden optisch identischen Zeichen unterschieden. Wenn eine semantische Unterscheidung notwendig ist[20] dann kann das diakritische Zeichen Trema mit der Unicode-Zeichenfolge kombinierender Graphemverbinder mit der Unicodenummer 034Fhex und kombinierendes Trema (¨) mit der Unicodenummer 0308hex codiert werden, während das diakritische Zeichen Umlautpunkte ganz normal mit dem Unicode-Zeichen kombinierendes Trema (¨) mit der Unicodenummer 0308hex oder den mit Trema zusammengesetzten Unicode-Zeichen codiert wird.[21] Dabei sollte man sich nicht durch die Namen der Unicode-Zeichen irritieren lassen.[22]
Das diakritische Zeichen Cedille (¸) an der Position 4Bhex kann historisch betrachtet auch als Unterkomma ( ̦ ) verwendet werden.[18]
Die kombinierende Unterstreichung (_) und damit einhergehend auch der Unterstrich an der Position 4Chex sind in ETSI EN 300 706 im Beispiellayout links und rechts nicht verbindend dargestellt[8] und sollten besser mit Hilfe der Schriftauszeichnung „Unterstreichen“ realisiert werden.[23] Dementsprechend sollte eventuell auch der Unterstrich an der Position 5Fhex im lateinischen G0-Primärzeichensatz bei der Schriftauszeichnung „Unterstreichen“ als geschütztes Leerzeichen codiert werden, um eine doppelte Linie zu vermeiden und eine einheitliche Linienführung zu erreichen. Aber zumindest in der Schriftfamilie „Courier“ ist der Unterstrich optisch kompatibel mit der Schriftauszeichnung „Unterstreichen“.
Die horizontale Linie (―) an der Position 50hex kann gleichermaßen auch als langer Gedankenstrich im Englischen (—) mit der Unicodenummer 2014hex verwendet werden[4] und ist in ETSI EN 300 706 im Beispiellayout links und rechts verbindend dargestellt.[15]
Das Proportionalzeichen (∝) an der Position 58hex wird in EBU Tech 3232-a wohl falsch als Alpha bezeichnet, ist aber nicht zu verwechseln mit dem griechischen Kleinbuchstaben Alpha (α), da beide Zeichen in ETSI EN 300 706 mit unterschiedlichem Beispiellayout dargestellt sind.[24]
Das Zeichen 62hex kann entsprechend EBU Tech 3232-a und ISO 6937 als Großbuchstabe D mit Querstrich (Đ) für den gleichnamigen Kleinbuchstaben (đ) an der Position 72hex und als isländischer Großbuchstabe Eth (Ð) für den gleichnamigen Kleinbuchstaben (ð) an der Position 73hex verwendet werden. Im Zweifelsfall ist die erste Unicodenummer gemäß ISO 6937 zu wählen.
Das Zeichen für den unbestimmten Artikel in Afrikaans (ʼn) an der Position 6Fhex ist nur in Kleinschreibung vorhanden und wird üblicherweise auch immer kleingeschrieben. In Versalschreibweise wird das Zeichen ganz normal mit dem Großbuchstaben N an der Position 4Ehex mit einem vorangestellten modifizierenden Hochkomma (ʼ) an der Position 27hex jeweils im lateinischen G0-Primärzeichensatz dargestellt.[25] Die großgeschriebene Form ist auch in Unicode nicht als eigenständiges Zeichen definiert.
Der früher verwendete grönländische Buchstabe Kra (ĸ) an der Position 70hex ist nur als Kleinbuchstabe vorhanden. Der zugehörige Großbuchstabe wird mit dem Großbuchstaben K an der Position 4Bhex mit einem nachfolgenden modifizierenden Hochkomma (ʼ) an der Position 27hex jeweils im lateinischen G0-Primärzeichensatz dargestellt und ist auch in Unicode nicht als eigenständiges Zeichen definiert.[26]
Als Großbuchstabe für den türkischen Kleinbuchstaben i ohne Punkt (ı) an der Position 75hex wird der Großbuchstabe I an der Position 49hex im lateinischen G0-Primärzeichensatz verwendet. Das ist auch in Unicode so vorgesehen (siehe auch Anmerkung zum lateinischen G0-Primärzeichensatz).[27]
Der deutsche Buchstabe Eszett (ß) an der Position 7Bhex ist nur als Kleinbuchstabe vorhanden. Die Großschreibung erfolgt üblicherweise mit zwei aufeinanderfolgenden Großbuchstaben S an der Position 53hex im lateinischen G0-Primärzeichensatz und ist in dieser Form auch in Unicode nicht als eigenständiges Zeichen definiert.[28] Erst 2008 wurde das Eszett in Großbuchstabenform (ẞ) als neues Zeichen in Unicode aufgenommen und ist seit 2017 Bestandteil der amtlichen deutschen Rechtschreibung.[29]
Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die unterstützten Kombinationen sind vom Decoder abhängig. Im Zweifelsfall sollte man sich auf die in ISO 6937 festgelegten Kombinationen beschränken. Dementsprechend wird auch zur Darstellung des Kleinbuchstabens g mit Cedille (ģ) der Kleinbuchstabe g abweichend zu Unicode mit dem Akut (´) an der Position 42hex kombiniert. Auch bei den beiden kyrillischen und griechischen G2-Ergänzungszeichensätzen sollten die kombinierenden Zeichen nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.
Kyrillisch
Die kyrillischen G0-Primärzeichensätze sind größtenteils identisch mit dem 7-Bit-Zeichensatz GOST 13052 (übernommen in ISO-IR-111), wobei die Großbuchstaben und Kleinbuchstaben vertauscht und somit wie in den anderen Zeichensätzen angeordnet sind.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
# ⋕ 0023 |
$ 0024 |
% 0025 |
& 0026 |
' ’ 0027 |
( 0028 |
) 0029 |
*∗|@ 002A|0040 |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ | Ч 0427 |
А A 0410 0041 |
Б 0411 |
Ц 0426 |
Д 0414 |
Е 0415 |
Ф 0424 |
Г 0413 |
Х X 0425 0058 |
И 0418 |
Ј 0408 |
К 041A |
Л 041B |
М M 041C 004D |
Н H 041D 0048 |
О O 041E 004F |
5_ | П 041F |
Ќ 040C |
Р P 0420 0050 |
С C 0421 0043 |
Т T 0422 0054 |
У (Y) 0423 (0059) |
В B 0412 0042 |
Ѓ 0403 |
Љ 0409 |
Њ 040A |
З 0417 |
Ћ 040B |
Ж 0416 |
Ђ 0402 |
Ш 0428 |
Џ 040F |
6_ | ч 0447 |
а a 0430 0061 |
б 0431 |
ц 0446 |
д 0434 |
е 0435 |
ф 0444 |
г 0433 |
х x 0445 0078 |
и 0438 |
ј 0458 |
к 043A |
л 043B |
м (m) 043C (006D) |
н (h) 043D (0068) |
о o 043E 006F |
7_ | п 043F |
ќ 045C |
р p 0440 0070 |
с c 0441 0063 |
т (t) 0442 (0074) |
у y 0443 0079 |
в (b) 0432 (0062) |
ѓ 0453 |
љ 0459 |
њ 045A |
з 0437 |
ћ 045B |
ж 0436 |
ђ 0452 |
ш 0448 |
■ 25A0 |
Die zwei Zeichen 24hex ($), 7Fhex (■) und zwölf kyrillische Buchstabenpaare sind abweichend zu GOST 13052 codiert und so weit wie möglich passend zur lateinischen G0-Variante „Serbisch/Kroatisch/Slowenisch“ angeordnet (siehe Kyrillisches Alphabet, Serbisch, Serbokroatisch und Montenegrinisch).
Das Zeichen 24hex stellt anstelle des Dollarzeichens ($) bei manchen Decodern den kyrillischen Großbuchstaben Jo (Ё) mit der Unicodenummer 0401hex bzw. den lateinischen Großbuchstaben E mit Trema (Ë) mit der Unicodenummer 00CBhex dar.[1]
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Der kyrillische Buchstabe Dže (Џ) an der Position 5Fhex ist nur als Großbuchstabe vorhanden. Der zugehörige Kleinbuchstabe џ mit der Unicodenummer 045Fhex kann ersatzweise mit den zwei aufeinanderfolgenden kyrillischen Kleinbuchstaben De (д) und Sche/Že (ж) an den Positionen 64hex und 7Chex dargestellt werden.[30]
Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
# ⋕ 0023 |
$ 0024 |
% 0025 |
ы 044B |
' ’ 0027 |
( 0028 |
) 0029 |
*∗|@ 002A|0040 |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ | Ю 042E |
А A 0410 0041 |
Б 0411 |
Ц 0426 |
Д 0414 |
Е 0415 |
Ф 0424 |
Г 0413 |
Х X 0425 0058 |
И 0418 |
Й (Ѝ) 0419 (040D) |
К 041A |
Л 041B |
М M 041C 004D |
Н H 041D 0048 |
О O 041E 004F |
5_ | П 041F |
Я 042F |
Р P 0420 0050 |
С C 0421 0043 |
Т T 0422 0054 |
У (Y) 0423 (0059) |
Ж 0416 |
В B 0412 0042 |
Ь 042C |
Ъ 042A |
З 0417 |
Ш 0428 |
Э 042D |
Щ 0429 |
Ч 0427 |
Ы 042B |
6_ | ю 044E |
а a 0430 0061 |
б 0431 |
ц 0446 |
д 0434 |
е 0435 |
ф 0444 |
г 0433 |
х x 0445 0078 |
и 0438 |
й (ѝ) 0439 (045D) |
к 043A |
л 043B |
м (m) 043C (006D) |
н (h) 043D (0068) |
о o 043E 006F |
7_ | п 043F |
я 044F |
р p 0440 0070 |
с c 0441 0063 |
т (t) 0442 (0074) |
у y 0443 0079 |
ж 0436 |
в (b) 0432 (0062) |
ь 044C |
ъ 044A |
з 0437 |
ш 0448 |
э 044D |
щ 0449 |
ч 0447 |
■ 25A0 |
Die drei Zeichen 24hex ($), 26hex (ы) und 7Fhex (■) sind abweichend zu GOST 13052 codiert, sowie die beiden kyrillischen Buchstabenpaare an den Positionen 59hex/79hex (Ъ/ъ) und 5Fhex/26hex (Ы/ы) entsprechend der bulgarischen Variante vertauscht.
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Der kyrillische Buchstabe Je (Е/е) an den Positionen 45hex und 65hex kann ersatzweise auch für den kyrillischen Buchstaben Jo (Ё/ё) mit den Unicodenummern 0401hex und 0451hex verwendet werden, da dieser im Russischen oftmals ohne Trema dargestellt wird.[31]
Beim kyrillischen Buchstaben kurzes I (Й/й) an den Positionen 4Ahex und 6Ahex ist in ETSI EN 300 706 das Breve (˘) wohl falsch wie der Überpunkt (˙) dargestellt. Aber eventuell wurde das gemacht, um optisch besser auch als kyrillischer Buchstabe I mit Gravis (Ѝ/ѝ) verwendet werden zu können.[32]
Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
# ⋕ 0023 |
$ 0024 |
% 0025 |
ї 0457 |
' ’ 0027 |
( 0028 |
) 0029 |
*∗|@ 002A|0040 |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ | Ю 042E |
А A 0410 0041 |
Б 0411 |
Ц 0426 |
Д 0414 |
Е 0415 |
Ф 0424 |
Г 0413 |
Х X 0425 0058 |
И 0418 |
Й (Ѝ) 0419 (040D) |
К 041A |
Л 041B |
М M 041C 004D |
Н H 041D 0048 |
О O 041E 004F |
5_ | П 041F |
Я 042F |
Р P 0420 0050 |
С C 0421 0043 |
Т T 0422 0054 |
У (Y) 0423 (0059) |
Ж 0416 |
В B 0412 0042 |
Ь 042C |
І 0406 |
З 0417 |
Ш 0428 |
Є 0404 |
Щ 0429 |
Ч 0427 |
Ї 0407 |
6_ | ю 044E |
а a 0430 0061 |
б 0431 |
ц 0446 |
д 0434 |
е 0435 |
ф 0444 |
г 0433 |
х x 0445 0078 |
и 0438 |
й (ѝ) 0439 (045D) |
к 043A |
л 043B |
м (m) 043C (006D) |
н (h) 043D (0068) |
о o 043E 006F |
7_ | п 043F |
я 044F |
р p 0440 0070 |
с c 0441 0063 |
т (t) 0442 (0074) |
у y 0443 0079 |
ж 0436 |
в (b) 0432 (0062) |
ь 044C |
і 0456 |
з 0437 |
ш 0448 |
є 0454 |
щ 0449 |
ч 0447 |
■ 25A0 |
Die drei Zeichen 24hex ($), 26hex (ї), 7Fhex (■) und drei kyrillische Buchstabenpaare sind abweichend zu GOST 13052 codiert.
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Beim kyrillischen Buchstaben kurzes I (Й/й) an den Positionen 4Ahex und 6Ahex ist in ETSI EN 300 706 das Breve (˘) wohl falsch wie der Überpunkt (˙) dargestellt. Aber eventuell wurde das gemacht, um optisch besser auch als kyrillischer Buchstabe I mit Gravis (Ѝ/ѝ) verwendet werden zu können.[32]
Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im kyrillischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
¡ 00A1 |
¢ 00A2 |
£ 00A3 |
$ 0024 |
¥ 00A5 |
|
§ 00A7 |
|
‘ 2018 |
“ 201C |
« 00AB |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
3_ | ° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
µ 00B5 |
¶ 00B6 |
· 00B7 |
÷ 00F7 |
’ 2019 |
” 201D |
» 00BB |
¼ 00BC |
½ 00BD |
¾ 00BE |
¿ 00BF |
4_ |
|
` 0060 |
´ 00B4 |
ˆ 02C6 |
˜ 02DC |
¯ ˉ 00AF |
˘ 02D8 |
˙ 02D9 |
¨ 00A8 |
̣ N/A |
˚ 02DA |
¸ (̦ ) 00B8 (N/A) |
_ 005F |
˝ 02DD |
˛ 02DB |
ˇ 02C7 |
Komb. |
|
ò 0300 |
ó (ģ) 0301 (0327) |
ô 0302 |
õ 0303 |
ō 0304 |
ŏ 0306 |
ȯ 0307 |
ö 0308 |
ọ 0323 |
å 030A |
ç (o̦) 0327 (0326) |
o̲ 0332 |
ő 030B |
ǫ 0328 |
ǒ 030C |
5_ | ― 2015 |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
₠ 20A0 |
‰ 2030 |
∝ 221D |
Ł 0141 |
ł 0142 |
ß 00DF |
⅛ 215B |
⅜ 215C |
⅝ 215D |
⅞ 215E |
6_ | D 0044 |
E 0045 |
F 0046 |
G 0047 |
I І 0049 0406 |
J Ј 004A 0408 |
K 004B |
L 004C |
N 004E |
Q 0051 |
R 0052 |
S Ѕ 0053 0405 |
U 0055 |
V 0056 |
W 0057 |
Z 005A |
7_ | d 0064 |
e 0065 |
f 0066 |
g 0067 |
i і 0069 0456 |
j ј 006A 0458 |
k 006B |
l 006C |
n 006E |
q 0071 |
r 0072 |
s ѕ 0073 0455 |
u 0075 |
v 0076 |
w 0077 |
z 007A |
Die Zeichen 20hex bis 5Fhex sind im Wesentlichen identisch mit dem lateinischen G2-Ergänzungszeichensatz ohne die zwei zusätzlichen Zeichen aus ITU T.61. Die drei Zeichen 59hex bis 5Bhex sind abweichend davon mit lateinischen Sonderbuchstaben codiert.
Die Zeichen 60hex bis 7Fhex sind mit lateinischen Buchstaben codiert, die zusammen mit ähnlich aussehenden Buchstaben in den kyrillischen G0-Primärzeichensätzen jeweils das vollständige lateinische Alphabet abbilden.
Die alternative Codierung der fett umrahmten Zeichen kann zur Ergänzung des codierten kyrillischen Alphabets verwendet werden, wobei die beiden kyrillischen Buchstaben weißrussisch-ukrainisches I (І/і) und serbisches Je (Ј/ј) an den Positionen 64hex/74hex und 65hex/75hex bereits in der kyrillischen G0-Variante 3 „Ukrainisch“ bzw. 1 „Serbisch/Kroatisch“ vorhanden sind.
Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die kombinierenden Zeichen sollten wie beim lateinischen G2-Ergänzungszeichensatz nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.
Griechisch
Der griechische G0-Primärzeichensatz ist im Wesentlichen identisch mit den Zeichen 20hex bis 3Fhex und C0hex bis FEhex des 8-Bit-Zeichensatzes ELOT 928 (identisch mit ISO 8859-7).
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
# ⋕ 0023 |
$ 0024 |
% 0025 |
& 0026 |
' ’ 0027 |
( 0028 |
) 0029 |
*∗|@ 002A|0040 |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
« 00AB |
= 003D |
» 00BB |
? 003F |
4_ | ΐ 0390 |
Α A 0391 0041 |
Β B 0392 0042 |
Γ 0393 |
Δ 0394 |
Ε E 0395 0045 |
Ζ 0396 |
Η H 0397 0048 |
Θ 0398 |
Ι I 0399 0049 |
Κ K 039A 004B |
Λ 039B |
Μ M 039C 004D |
Ν N 039D 004E |
Ξ 039E |
Ο O 039F 004F |
5_ | Π 03A0 |
Ρ P 03A1 0050 |
΄ 0384 |
Σ 03A3 |
Τ T 03A4 0054 |
Υ 03A5 |
Φ 03A6 |
Χ X 03A7 0058 |
Ψ 03A8 |
Ω 03A9 |
Ϊ 03AA |
Ϋ 03AB |
ά 03AC |
έ 03AD |
ή 03AE |
ί 03AF |
6_ | ΰ 03B0 |
α 03B1 |
β 03B2 |
γ 03B3 |
δ 03B4 |
ε 03B5 |
ζ 03B6 |
η 03B7 |
θ 03B8 |
ι 03B9 |
κ 03BA |
λ 03BB |
μ 03BC |
ν 03BD |
ξ 03BE |
ο o 03BF 006F |
7_ | π 03C0 |
ρ 03C1 |
ς 03C2 |
σ 03C3 |
τ 03C4 |
υ 03C5 |
φ 03C6 |
χ 03C7 |
ψ 03C8 |
ω 03C9 |
ϊ 03CA |
ϋ 03CB |
ό 03CC |
ύ 03CD |
ώ 03CE |
■ 25A0 |
Die vier Zeichen 3Chex («), 3Ehex (»), 52hex (΄) und 7Fhex (■) sind abweichend zu ELOT 928 codiert.
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Der alleinstehende Tonos (΄) an der Position 52hex ist in ETSI EN 300 706 im Beispiellayout rechtsbündig dargestellt, so dass er für einen nachfolgenden Großbuchstaben korrekt positioniert ist. Dadurch ergibt sich auch bereits ein ausreichender Leerraum zur Worttrennung.
Der Tonos (΄) ist in ETSI EN 300 706 historisch bedingt als alleinstehendes Zeichen an der Position 52hex und bei den griechischen Kleinbuchstaben mit Dialytika und Tonos (΅) an den Positionen 40hex und 60hex senkrecht ('), sowie bei den griechischen Kleinbuchstaben mit Tonos an den Positionen 5Chex bis 5Fhex und 7Chex bis 7Ehex wie der Überpunkt (˙) dargestellt.[33]
Der griechische Kleinbuchstabe Iota (ι) an der Position 69hex, sowie mit Diakritika (ΐ, ί und ϊ) an den Positionen 40hex, 5Fhex und 7Ahex ist in ETSI EN 300 706 ungenau wie der lateinische Kleinbuchstabe punktloses i mit Serifen (ı) dargestellt.
Die Variante für das Wortende des griechischen Kleinbuchstabens Sigma (ς) an der Position 72hex ist in ETSI EN 300 706 ungenau wie der lateinische Kleinbuchstabe s dargestellt.
Die alternative Codierung der anderen fett umrahmten Zeichen ist notwendig zur Vervollständigung des im griechischen G2-Ergänzungszeichensatz codierten lateinischen Alphabets.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
a 0061 |
b 0062 |
£ 00A3 |
e 0065 |
h 0068 |
i 0069 |
§ 00A7 |
: 003A |
‘ 2018 |
“ 201C |
k 006B |
← 2190 |
↑ 2191 |
→ 2192 |
↓ 2193 |
3_ | ° 00B0 |
± 00B1 |
² 00B2 |
³ 00B3 |
× 00D7 |
m 006D |
n 006E |
p 0070 |
÷ 00F7 |
’ 2019 |
” 201D |
t 0074 |
¼ 00BC |
½ 00BD |
¾ 00BE |
x 0078 |
4_ |
|
` 0060 |
´ 00B4 |
ˆ 02C6 |
˜ 02DC |
¯ ˉ 00AF |
˘ 02D8 |
˙ 02D9 |
¨ 00A8 |
̣ N/A |
˚ 02DA |
¸ (̦ ) 00B8 (N/A) |
_ 005F |
˝ 02DD |
˛ 02DB |
ˇ 02C7 |
Komb. |
|
ò 0300 |
ó (ģ) 0301 (0327) |
ô 0302 |
õ 0303 |
ō 0304 |
ŏ 0306 |
ȯ 0307 |
ö 0308 |
ọ 0323 |
å 030A |
ç (o̦) 0327 (0326) |
o̲ 0332 |
ő 030B |
ǫ 0328 |
ǒ 030C |
5_ | ? 003F |
¹ 00B9 |
® 00AE |
© 00A9 |
™ 2122 |
♪ 266A |
₠ 20A0 |
‰ 2030 |
∝ 221D |
Ί 038A |
Ύ 038E |
Ώ 038F |
⅛ 215B |
⅜ 215C |
⅝ 215D |
⅞ 215E |
6_ | C 0043 |
D 0044 |
F 0046 |
G 0047 |
J 004A |
L 004C |
Q 0051 |
R 0052 |
S 0053 |
U 0055 |
V 0056 |
W 0057 |
Y 0059 |
Z 005A |
Ά 0386 |
Ή 0389 |
7_ | c 0063 |
d 0064 |
f 0066 |
g 0067 |
j 006A |
l 006C |
q 0071 |
r 0072 |
s 0073 |
u 0075 |
v 0076 |
w 0077 |
y 0079 |
z 007A |
Έ 0388 |
■ 25A0 |
Die Zeichen 20hex bis 5Fhex und 7Fhex sind größtenteils identisch mit dem lateinischen G2-Ergänzungszeichensatz ohne die zwei zusätzlichen Zeichen aus ITU T.61. Die drei Zeichen 59hex bis 5Bhex sind abweichend davon mit griechischen Sonderbuchstaben, sowie weitere elf Zeichen mit lateinischen Kleinbuchstaben codiert. Außerdem sind die beiden Zeichen 28hex und 50hex abweichend als Doppelpunkt (:) und Fragezeichen (?) codiert, obwohl diese bereits im griechischen G0-Primärzeichensatz enthalten sind. Eventuell ist das historisch bedingt, weil diese beiden Zeichen nicht im 7-Bit-Zeichensatz ISO-IR-27 vorhanden sind.
Die Zeichen 60hex bis 7Ehex sind mit lateinischen Buchstaben und griechischen Sonderbuchstaben codiert. Die lateinischen Buchstaben bilden zusammen mit ähnlich aussehenden Buchstaben im griechischen G0-Primärzeichensatz das vollständige lateinische Alphabet ab.
Bei den griechischen Großbuchstaben mit Tonos an den Positionen 59hex bis 5Bhex, 6Ehex, 6Fhex und 7Ehex ist in ETSI EN 300 706 der Tonos (΄) historisch bedingt senkrecht (') dargestellt.[33]
Die alternative Codierung der in der Zeile „Kombinierend“ stehenden Zeichen wird abhängig von der Ansteuerung verwendet. Die kombinierenden Zeichen sollten wie beim lateinischen G2-Ergänzungszeichensatz nur in Verbindung mit dem lateinischen G0-Primärzeichensatz verwendet werden.
Arabisch
Der arabische G0-Primärzeichensatz ist größtenteils identisch mit dem 7-Bit-Zeichensatz ASMO 449 (übernommen in ISO 8859-6), wobei für die Sonderzeichen die lateinische G0-Variante „Englisch“ verwendet wird und die arabischen Buchstaben mit ihren Präsentationsformen dargestellt sind. Fünf Sonderbuchstaben wurden in den arabischen G2-Ergänzungszeichensatz verschoben, der auch weitere Buchstaben für das Persische beinhaltet.
Die arabischen Buchstaben mit mehreren Codierungen und optionaler Verbindung nach rechts sind in ETSI EN 300 706 rechts ohne eigene verbindende Linie dargestellt und dementsprechend jeweils primär als initiale oder isolierte Präsentationsform codiert. Abweichend davon sind die drei arabischen Buchstaben der „Ǧīm“-Familie (ﺝ, ﺡ und ﺥ) an den Positionen 4Chex bis 4Ehex im arabischen G0-Primärzeichensatz zwar jeweils eher als mediale Präsentationsform (mit gerader Grundlinie) dargestellt, aber trotzdem primär als initiale Präsentationsform codiert, da die medialen Präsentationsformen (ohne gerade Grundlinie) zusätzlich an den Positionen 5Chex bis 5Ehex im arabischen G0-Primärzeichensatz vorhanden sind (siehe auch Anmerkung zur Tabelle).
Außerdem ist der arabische Buchstabe Yāʾ (ﻱ) an der Position 27hex im arabischen G0-Primärzeichensatz und mit Hamza darüber (ﺉ) an der Position 27hex im arabischen G2-Ergänzungszeichensatz jeweils eher als finale Präsentationsform dargestellt und dementsprechend primär codiert, da die isolierte Präsentationsform optisch keine korrekte Verbindung nach rechts zulässt.
Die arabischen Buchstaben mit mehreren Codierungen und optionaler Verbindung nach links sind in ETSI EN 300 706 links mit verbindender Linie dargestellt und dementsprechend jeweils primär als initiale Präsentationsform codiert. Abweichend davon sind die vier arabischen Buchstaben der „Sīn“-Familie (ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53hex bis 56hex im arabischen G0-Primärzeichensatz links ohne Abschluss oder eigene verbindende Linie dargestellt und müssen jeweils mit einem zweiten Zeichen vervollständigt werden (siehe Anmerkung zur Tabelle).
Bei arabischen Buchstaben mit mehreren Unicodenummern muss bei der Ausgabe in Unicode entweder die passende Unicodenummer entsprechend den beiden Nachbarzeichen links und rechts ausgewählt oder im einfachsten Fall jeweils die erste Unicodenummer verwendet werden. Eine fett dargestellte Unicodenummer steht für das eigentliche Zeichen. Wenn bei der Ausgabe in Unicode anstelle der Präsentationsformen die eigentlichen Zeichen verwendet werden, dann müssen ggf. der breitenlose Nichtverbinder (ZWNJ) mit der Unicodenummer 200Chex oder der breitenlose Verbinder (ZWJ) mit der Unicodenummer 200Dhex eingefügt werden, um die automatische Auswahl der Glyphen auf die möglichen Präsentationsformen der jeweiligen Zeichen zu beschränken.
Die arabische Schrift wird zwar von rechts nach links geschrieben, aber die Anordnung im Teletext erfolgt wie sonst auch von links nach rechts. Daher muss bei der Ausgabe in Unicode entweder der Unicode-Bidi-Algorithmus rückwärts angewendet oder im einfachsten Fall jeder Zeile das bidirektionale Steuerzeichen Links-nach-rechts-Zwang (LRO) mit der Unicodenummer 202Dhex vorangestellt werden.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
£ 00A3 |
$ 0024 |
% 0025 |
ﹳ ﮞ FE73 |
ﻲ ﻱ FEF2 FEF1 |
) 0029 |
( 0028 |
*∗|@ 002A|0040 |
+ 002B |
، , 060C 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
؛ 061B |
> 003E |
= 003D |
< 003C |
؟ 061F |
4_ | ﺔ FE94 |
ﺀ FE80 |
ﺒ FE92 |
ﺏ ﺐ FE8F FE90 |
ﺘ FE98 |
ﺕ ﺖ FE95 FE96 |
ﺎ FE8E |
ﺍ FE8D |
ﺑ FE91 |
ﺓ FE93 |
ﺗ FE97 |
ﺛ FE9B |
ﺟ ﺠ ﺟ ﺠ FE9F FEA0 |
ﺣ ﺤ ﺣ ﺤ FEA3 FEA4 |
ﺧ ﺨ ﺧ ﺨ FEA7 FEA8 |
ﺩ ﺪ FEA9 FEAA |
5_ | ﺫ ﺬ FEAB FEAC |
ﺭ ﺮ FEAD FEAE |
ﺯ ﺰ FEAF FEB0 |
ﺳ ﺴ (ﺱ ﺲ) FEB3 FEB4 (FEB1 FEB2) |
ﺷ ﺸ (ﺵ ﺶ) FEB7 FEB8 (FEB5 FEB6) |
ﺻ ﺼ (ﺹ ﺺ) FEBB FEBC (FEB9 FEBA) |
ﺿ ﻀ (ﺽ ﺾ) FEBF FEC0 (FEBD FEBE) |
ﻃ ﻁ ﻂ ﻄ FEC3 FEC1 FEC2 FEC4 |
ﻇ ﻅ ﻆ ﻈ FEC7 FEC5 FEC6 FEC8 |
ﻋ FECB |
ﻏ FECF |
ﺜ FE9C |
ﺠ ﺠ FEA0 |
ﺤ ﺤ FEA4 |
ﺨ ﺨ FEA8 |
# ⋕ 0023 |
6_ | ـ 0640 |
ﻓ FED3 |
ﻗ FED7 |
ﻛ ﻜ FEDB FEDC |
ﻟ FEDF |
ﻣ FEE3 |
ﻧ FEE7 |
ﻫ FEEB |
ﻭ ﻮ FEED FEEE |
ﻰ FEF0 |
ﻳ FEF3 |
ﺙ ﺚ FE99 FE9A |
ﺝ ﺞ FE9D FE9E |
ﺡ ﺢ FEA1 FEA2 |
ﺥ ﺦ FEA5 FEA6 |
ﻴ FEF4 |
Pers. | ﯼ FBFC |
ﮐ ﮎ ﮏ ﮑ FB90 FB8E FB8F FB91 |
ﯽ FBFD |
ﯾ FBFE |
ﯿ FBFF | |||||||||||
7_ | ﻯ FEEF |
ﻌ FECC |
ﻐ FED0 |
ﻔ FED4 |
ﻑ ﻒ FED1 FED2 |
ﻘ FED8 |
ﻕ ﻖ FED5 FED6 |
ﻙ ﻚ FED9 FEDA |
ﻠ FEE0 |
ﻝ ﻞ FEDD FEDE |
ﻤ FEE4 |
ﻡ ﻢ FEE1 FEE2 |
ﻨ FEE8 |
ﻥ ﻦ FEE5 FEE6 |
ﻻ FEFB |
■ 25A0 |
Die zwei Zeichen 26hex (ﹳ) und 27hex (ﻱ) sind abweichend zu ASMO 449 codiert. Außerdem wurden fünf Sonderbuchstaben und fast alle Sonderzeichen an den Positionen 40hex bis 7Ehex durch weitere Präsentationsformen der codierten arabischen Buchstaben ersetzt.
Das Zeichen 26hex (ﹳ) dient als Abschlussteil für die isolierten und finalen Präsentationsformen der vier arabischen Buchstaben der „Sīn“-Familie (ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53hex bis 56hex.[34]
Die beiden runden Klammern („)“ und „(“) an den Positionen 28hex und 29hex, sowie die beiden Vergleichszeichen (> und <) an den Positionen 3Chex und 3Ehex sind wie in den anderen Zeichensätzen rechtsläufig codiert, da die Anordnung aller Zeichen im Teletext immer von links nach rechts erfolgt.
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Das arabische Komma (،) an der Position 2Chex ist in ETSI EN 300 706 im Beispiellayout so dargestellt, dass es optisch auch als normales Komma (,) verwendet werden kann.
Die kombinierten initialen-medialen Präsentationsformen der drei arabischen Buchstaben der „Ǧīm“-Familie (ﺟ/ﺠ, ﺣ/ﺤ und ﺧ/ﺨ) an den Positionen 4Chex bis 4Ehex sind in ETSI EN 300 706 passend zu den initialen und medialen Präsentationsformen des persischen Buchstabens Tsche (ﭼ/ﭽ) an den Positionen 28hex und 29hex im arabischen G2-Ergänzungszeichensatz mit gerader Grundlinie dargestellt. Die Codierungen als mediale Präsentationsformen sind aber identisch mit den medialen Präsentationsformen ohne gerade Grundlinie (ﺠ, ﺤ und ﺨ) an den Positionen 5Chex bis 5Ehex, da es sich dabei jeweils nur um eine Layoutvariation handelt. Entsprechendes gilt für die Verwendung als initiale Präsentationsformen, wobei hier allerdings auch keine eigenen Zeichen für die Layoutvariation ohne gerade Grundlinie (ﺟ, ﺣ und ﺧ) vorhanden sind.
Die vier arabischen Buchstaben der „Sīn“-Familie (ﺱ, ﺵ, ﺹ und ﺽ) an den Positionen 53hex bis 56hex sind links ohne Abschluss oder eigene verbindende Linie dargestellt und müssen jeweils mit einem zweiten Zeichen vervollständigt werden. Bei einer Verwendung als isolierte oder finale Präsentationsform muss das Abschlussteil (ﹳ) an der Position 26hex links angefügt werden.[34] Bei einer Verwendung als initiale oder mediale Präsentationsform muss das modifizierende Zeichen Taṭwīl (ـ) an der Position 60hex links angefügt werden, wenn das linke Nachbarzeichen keine eigene Verbindungslinie nach rechts besitzt oder diese sehr kurz ist.
Die alternative Codierung (bei identischem Layout) der in der Zeile „Persisch“ stehenden Buchstaben dient der Vervollständigung der im arabischen G2-Ergänzungszeichensatz codierten persischen Buchstaben.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
ﻉ FEC9 |
ﺁ (ﺂ) FE81 (FE82) |
ﺃ (ﺄ) FE83 (FE84) |
ﺅ ﺆ FE85 FE86 |
ﺇ (ﺈ) FE87 (FE88) |
ﺋ FE8B |
ﺊ ﺉ FE8A FE89 |
ﭼ ﭼ FB7C |
ﭽ ﭽ FB7D |
ﭺ ﭻ FB7A FB7B |
ﭘ FB58 |
ﭙ FB59 |
ﭖ ﭗ FB56 FB57 |
ﮊ ﮋ FB8A FB8B |
ﮔ ﮒ ﮓ ﮕ FB94 FB92 FB93 FB95 |
3_ | ٠ 0660 |
١ 0661 |
٢ 0662 |
٣ 0663 |
٤ 0664 |
٥ 0665 |
٦ 0666 |
٧ 0667 |
٨ 0668 |
٩ 0669 |
ﻎ FECE |
ﻍ FECD |
ﻼ FEFC |
ﻬ FEEC |
ﻪ FEEA |
ﻩ FEE9 |
4_ | à 00E0 |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
I 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ | P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
ë 00EB |
ê 00EA |
ù 00F9 |
î 00EE |
ﻊ FECA |
6_ | é 00E9 |
a 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
h 0068 |
i 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ | p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
â 00E2 |
ô 00F4 |
û 00FB |
ç 00E7 |
|
Der Zeichensatz ist teilweise identisch mit dem lateinischen G0-Primärzeichensatz. Die Ziffern sind abweichend davon mit ihren arabisch-indischen Varianten codiert. Außerdem sind alle Sonderzeichen durch Präsentationsformen arabischer Buchstaben und modifizierte lateinische Kleinbuchstaben zur Schreibung des Französischen ersetzt (siehe Windows-1256), wobei letztere im Wesentlichen wie in der lateinischen G0-Variante „Französisch“ angeordnet sind.
Die alternative Codierung der fett umrahmten Zeichen ist notwendig zur Vervollständigung aller Präsentationsformen der codierten arabischen Buchstaben.
Hebräisch
Der hebräische G0-Primärzeichensatz ist im Wesentlichen identisch mit dem 7-Bit-Zeichensatz SI 960 (übernommen in ISO 8859-8), wobei für die Sonderzeichen die lateinische G0-Variante „Englisch“ verwendet wird. Ein hebräischer G2-Ergänzungszeichensatz ist nicht definiert, es wird der arabische G2-Ergänzungszeichensatz verwendet.
Die hebräische Schrift wird zwar von rechts nach links geschrieben, aber die Anordnung im Teletext erfolgt wie sonst auch von links nach rechts. Daher muss bei der Ausgabe in Unicode entweder der Unicode-Bidi-Algorithmus rückwärts angewendet oder im einfachsten Fall jeder Zeile das bidirektionale Steuerzeichen Links-nach-rechts-Zwang (LRO) mit der Unicodenummer 202Dhex vorangestellt werden.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
! 0021 |
" ” 0022 |
£ 00A3 |
$ 0024 |
% 0025 |
& 0026 |
' ’ 0027 |
( 0028 |
) 0029 |
*∗|@ 002A|0040 |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ | 0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ | @ 0040 |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
I 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ | P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
← 2190 |
½ 00BD |
→ 2192 |
↑ 2191 |
# ⋕ 0023 |
6_ | א 05D0 |
ב 05D1 |
ג 05D2 |
ד 05D3 |
ה 05D4 |
ו 05D5 |
ז 05D6 |
ח 05D7 |
ט 05D8 |
י 05D9 |
ך 05DA |
כ 05DB |
ל 05DC |
ם 05DD |
מ 05DE |
ן 05DF |
7_ | נ 05E0 |
ס 05E1 |
ע 05E2 |
ף 05E3 |
פ 05E4 |
ץ 05E5 |
צ 05E6 |
ק 05E7 |
ר 05E8 |
ש 05E9 |
ת 05EA |
₪ 20AA |
∥ 2225 |
¾ 00BE |
÷ 00F7 |
■ 25A0 |
Das Zeichen 7Bhex (₪) ist abweichend zu SI 960 als Schekel-Währungssymbol codiert (siehe Windows-1255).
Die Codierung des Zeichens 2Ahex ist von der Ansteuerung abhängig.
Grafik
Beim analogen Fernsehen im 4:3-Format betrug das Verhältnis von Breite zu Höhe eines Teletext-Zeichens bei Fernsehnormen mit 625 Zeilen ungefähr 3:4 und bei Fernsehnormen mit 525 Zeilen ungefähr 7:10.[35] Dieses ist für die seitengerechte Darstellung einer Grafik zu beachten.
Da das genaue Layout der Unicode-Zeichen stark von der Schriftart abhängig ist und diese auch nicht immer zueinander passen, sollten ggf. alle Grafikzeichen selbst gezeichnet werden. Für eine weitgehend korrekte Darstellung aller Grafikzeichen in den beiden G1- und G3-Zeichensatz-Tabellen kann z. B. die für die private Nutzung frei verfügbare Schriftart „Symbola“ ab Version 13.00 verwendet werden.[36]
Die Zeichen mit einer 5-stelligen Unicodenummer (1FBxxhex) wurden im März 2020 mit der Version 13.0.0 in Unicode aufgenommen.[37]
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | ␠ 0020 |
🬀 1FB00 |
🬁 1FB01 |
🬂 1FB02 |
🬃 1FB03 |
🬄 1FB04 |
🬅 1FB05 |
🬆 1FB06 |
🬇 1FB07 |
🬈 1FB08 |
🬉 1FB09 |
🬊 1FB0A |
🬋 1FB0B |
🬌 1FB0C |
🬍 1FB0D |
🬎 1FB0E |
3_ | 🬏 1FB0F |
🬐 1FB10 |
🬑 1FB11 |
🬒 1FB12 |
🬓 1FB13 |
▌ 258C |
🬔 1FB14 |
🬕 1FB15 |
🬖 1FB16 |
🬗 1FB17 |
🬘 1FB18 |
🬙 1FB19 |
🬚 1FB1A |
🬛 1FB1B |
🬜 1FB1C |
🬝 1FB1D |
4_ | [G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
5_ | [G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
[G0] |
6_ | 🬞 1FB1E |
🬟 1FB1F |
🬠 1FB20 |
🬡 1FB21 |
🬢 1FB22 |
🬣 1FB23 |
🬤 1FB24 |
🬥 1FB25 |
🬦 1FB26 |
🬧 1FB27 |
▐ 2590 |
🬨 1FB28 |
🬩 1FB29 |
🬪 1FB2A |
🬫 1FB2B |
🬬 1FB2C |
7_ | 🬭 1FB2D |
🬮 1FB2E |
🬯 1FB2F |
🬰 1FB30 |
🬱 1FB31 |
🬲 1FB32 |
🬳 1FB33 |
🬴 1FB34 |
🬵 1FB35 |
🬶 1FB36 |
🬷 1FB37 |
🬸 1FB38 |
🬹 1FB39 |
🬺 1FB3A |
🬻 1FB3B |
█ 🬦🬓🬹 2588 |
Die 63 Blockelemente und das Leerzeichen an den Positionen 20hex bis 3Fhex und 60hex bis 7Fhex sind so angeordnet, dass jeweils das Bitmuster des Zeichencodes direkt bestimmt, aus welchen der sechs einzelnen rechteckigen Blöcke ① (oben links) bis ⑥ (unten rechts) ein Grafikzeichen zusammengesetzt ist: 0⑥1⑤ ④③②①bin (0 🬞 1 🬏 🬇 🬃 🬁 🬀).
Das Grafik-Leerzeichen an der Position 20hex ist so breit wie die Blockelemente an den Positionen 21hex bis 3Fhex und 60hex bis 7Fhex und kann als normales oder geschütztes Leerzeichen codiert werden, da diese zumindest in einer Schriftart mit fester Zeichenbreite genauso breit sind. Allerdings wäre eine Codierung als eigenständiges Zeichen ähnlich dem Ziffern-Leerzeichen mit der Unicodenummer 2007hex besser, die aber in Unicode nicht vorhanden ist. Das Attribut „Getrennte Blockgrafik/Unterstreichen“ hat keine Auswirkung auf das Grafik-Leerzeichen.
Die 63 Blockelemente an den Positionen 21hex bis 3Fhex und 60hex bis 7Fhex werden abhängig vom zugehörigen Attribut wie abgebildet in zusammenhängender oder alternativ wie rechts neben dem vollen Block (█) an der Position 7Fhex in getrennter Form dargestellt. Bei der getrennten Form sind die sechs rechteckigen Blöcke, aus denen sich diese Grafikzeichen zusammensetzen, kleiner und nicht miteinander verbunden. Die getrennten Formen sind in Unicode nicht als eigenständige Zeichen definiert.
Für die 32 Positionen 40hex bis 5Fhex werden die entsprechenden Zeichen des ausgewählten G0-Primärzeichensatzes verwendet.
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2_ | 🬼 1FB3C |
🬽 1FB3D |
🬾 1FB3E |
🬿 1FB3F |
🭀 1FB40 |
▖🭯🭬 (25E3) |
🭁 1FB41 |
🭂 1FB42 |
🭃 1FB43 |
🭄 1FB44 |
🭅 1FB45 |
🭆 1FB46 |
🭨 1FB68 |
🭩 1FB69 |
│ (1FB70) (1FB71) |
▒ 2592 |
3_ | 🭇 1FB47 |
🭈 1FB48 |
🭉 1FB49 |
🭊 1FB4A |
🭋 1FB4B |
▗🭯🭮 (25E2) |
🭌 1FB4C |
🭍 1FB4D |
🭎 1FB4E |
🭏 1FB4F |
🭐 1FB50 |
🭑 1FB51 |
🭪 1FB6A |
🭫 1FB6B |
│ (1FB75) (1FB74) |
█ 2588 |
4_ | ╵🬋 (2537) |
╷🬋 (252F) |
│🬇 (251D) |
│🬃 (2525) |
🮤 1FBA4 |
🮥 1FBA5 |
🮦 1FBA6 |
🮧 1FBA7 |
🮠 1FBA0 |
🮡 1FBA1 |
🮢 1FBA2 |
🮣 1FBA3 |
│🬋 (253F) |
⚫ 26AB |
⬤ 2B24 |
◯ 25EF |
5_ | │ 2502 |
─|― 2500|2015 |
┌ 250C |
┐ 2510 |
└ 2514 |
┘ 2518 |
├ 251C |
┤ 2524 |
┬ 252C |
┴ 2534 |
┼ 253C |
⭢|→ 2B62|2192 |
⭠|← 2B60|2190 |
⭡|↑ 2B61|2191 |
⭣ 2B63 |
␠ 0020 |
6_ | 🭒 1FB52 |
🭓 1FB53 |
🭔 1FB54 |
🭕 1FB55 |
🭖 1FB56 |
▝🭭🭮 (25E5) |
🭗 1FB57 |
🭘 1FB58 |
🭙 1FB59 |
🭚 1FB5A |
🭛 1FB5B |
🭜 1FB5C |
🭬 1FB6C |
🭭 1FB6D |
|
|
7_ | 🭝 1FB5D |
🭞 1FB5E |
🭟 1FB5F |
🭠 1FB60 |
🭡 1FB61 |
▘🭭🭬 (25E4) |
🭢 1FB62 |
🭣 1FB63 |
🭤 1FB64 |
🭥 1FB65 |
🭦 1FB66 |
🭧 1FB67 |
🭮 1FB6E |
🭯 1FB6F |
|
|
Die 57 geglätteten Blockelemente an den Positionen 20hex bis 2Dhex, 30hex bis 3Dhex, 3Fhex, 60hex bis 6Dhex und 70hex bis 7Dhex werden bei manchen Decodern abhängig vom zugehörigen Attribut wie abgebildet in zusammenhängender oder alternativ wie die Blockelemente im G1-Blockgrafik-Zeichensatz in getrennter Form dargestellt (siehe ITU T.101). Die getrennten Formen sind in Unicode nicht als eigenständige Zeichen definiert.
Bei den vier Dreiecken an den Positionen 25hex, 35hex, 65hex und 75hex sind die ersatzweise codierten Unicode-Zeichen nicht wie die Teletext-Zeichen verbindende Grafikelemente, sondern auf der Grundlinie ausgerichtete geometrische Formen, die jeweils an allen vier Seiten von Leerraum umgeben sind.
Die linke dünne vertikale Rahmenlinie (│) an der Position 2Ehex ist zum linken halben Block (▌) an der Position 35hex im G1-Blockgrafik-Zeichensatz horizontal zentriert ausgerichtet. Die ersatzweise codierten Unicode-Zeichen sind dagegen keine Linien, sondern vertikale achtel Blöcke links und rechts der Linienposition.
Die rechte dünne vertikale Rahmenlinie (│) an der Position 3Ehex ist zum rechten halben Block (▐) an der Position 6Ahex im G1-Blockgrafik-Zeichensatz horizontal zentriert ausgerichtet. Die ersatzweise codierten Unicode-Zeichen sind dagegen keine Linien, sondern vertikale achtel Blöcke rechts und links der Linienposition.
Die 14 geglätteten Blockelemente und die Rahmenlinie an den Positionen 30hex bis 3Ehex entsprechen den vertikal (Zeichen 30hex bis 3Chex und 3Ehex) oder horizontal (Zeichen 3Dhex) gespiegelten Darstellungen der Zeichen 20hex bis 2Ehex.
Bei den 16 Rahmenelementen und vier Pfeilen an den Positionen 40hex bis 43hex, 4Chex und 50hex bis 5Ehex sind die vertikalen Linien (│) horizontal zentriert und die horizontalen Linien (─ und 🬋) vertikal zentriert ausgerichtet. Bei den acht Rahmenelementen an den Positionen 44hex bis 4Bhex sind die vier möglichen Endpunkte der diagonalen Linien (🮮) jeweils passend dazu horizontal oder vertikal zentriert ausgerichtet.
Bei den fünf Rahmenelementen an den Positionen 40hex bis 43hex und 4Chex entspricht die dicke horizontale Linie dem mittleren horizontalen drittel Block (🬋) an der Position 2Chex im G1-Blockgrafik-Zeichensatz. Bei den ersatzweise codierten Unicode-Zeichen entspricht die dicke horizontale Linie dagegen der dicken horizontalen Rahmenlinie (━) mit der Unicodenummer 2501hex, die deutlich dünner ist.
Die folgenden drei Kreise besitzen keine festgelegte Unicode-Zuordnung und sind hier in Anlehnung an Unicode Technical Report #25[38] codiert. Das genaue Layout der Unicode-Zeichen ist stark von der Schriftart abhängig, sofern sie denn überhaupt unterstützt werden. Für die beiden großen Kreise in voller Blockbreite sollten aber zumindest in einer Schriftart mit fester Zeichenbreite die größten Unicode-Kreise am besten passen, und selbst in der proportionalen Schriftart „Arial Unicode MS“ ist die große Kreislinie (◯) mit der Unicodenummer 25EFhex genauso breit wie der volle Block (█) an der Position 3Fhex.
Der ausgefüllte kleine Kreis (⚫) an der Position 4Dhex ist so groß wie der sechstel Block (🬃) an der Position 24hex im G1-Blockgrafik-Zeichensatz und zentriert ausgerichtet.
Der ausgefüllte große Kreis (⬤) an der Position 4Ehex und die große Kreislinie (◯) an der Position 4Fhex sind jeweils so breit wie der volle Block (█) an der Position 3Fhex und vertikal zentriert ausgerichtet.
Die beiden Pfeile nach rechts (⭢) und links (⭠) an den Positionen 5Bhex und 5Chex passen zu den dünnen horizontalen Rahmenlinien (─) der Zeichen 51hex bis 5Ahex und können jeweils am Anfang mit diesen nahtlos verbunden werden. Diese Zeichen sind in ETSI EN 300 706 im Beispiellayout mit einer dickeren Strichstärke dargestellt als die drei Zeichen mit ähnlichem Layout (→, ← und ―) an den Positionen 5Dhex, 5Bhex und 60hex in der lateinischen G0-Variante „Englisch“ und an den Positionen 2Ehex, 2Chex und 50hex im lateinischen G2-Ergänzungszeichensatz und sollten nicht gemischt kombiniert werden.
Die beiden Pfeile nach oben (⭡) und unten (⭣) an den Positionen 5Dhex und 5Ehex passen zu den dünnen vertikalen Rahmenlinien (│) der Zeichen 40hex bis 4Chex und 50hex bis 5Ahex und können jeweils am Anfang mit diesen nahtlos verbunden werden.
Das Grafik-Leerzeichen an der Position 5Fhex ist mit dem Grafik-Leerzeichen an der Position 20hex im G1-Blockgrafik-Zeichensatz identisch und sollte dementsprechend identisch codiert werden.
Die 28 geglätteten Blockelemente an den Positionen 60hex bis 6Dhex und 70hex bis 7Dhex sind identisch mit den invertierten Darstellungen der Zeichen 20hex bis 2Dhex und 30hex bis 3Dhex. Bei einer Grafik werden für den oberen Teil eher letztere Zeichen und für den unteren Teil eher die „invertierten Darstellungen“ verwendet, was bei älteren Teletext- und Videotex-Standards mit Zeichensätzen, die jeweils nur eine Hälfte dieser Zeichen beinhalteten, die Codierung vereinfachte. Eine Ausnahme bildet das Zeichen an der Position 3Dhex (🭫), welches wohl auch deshalb in einem älteren britischen Teletext-Standard dessen Invertierung an der Position 7Dhex (🭯) darstellte, sofern die Abbildung im CCIR-Report 957 korrekt ist.[39]
Die Zeichen mit der Unicodenummer in Klammern sind den in ETSI EN 300 706 angegebenen Beispiellayouts zwar ähnlich, aber in der Regel optisch und semantisch nicht zu den anderen Grafikzeichen passend. Allerdings gibt es für diese Zeichen keine bessere Codierung in Unicode.
Viele Level-1.5-Decoder unterstützen nur die vier fett umrahmten Zeichen, daher liegt die Vermutung nahe, dass diese dafür die Zeichen mit ähnlichem Layout aus der lateinischen G0-Variante „Englisch“ verwenden, und die Zeichen in dem Fall entsprechend alternativ zu codieren sind.
Zeichensatzauswahl
Mit den Auswahlbits in den nationalen G0-Zeichensatz-Tabellen wird in der Regel auch der zugehörige G2-Zeichensatz ausgewählt. Die erste hexadezimale Ziffer gibt die höherwertigen vier Bits (die Region) und die zweite Ziffer die niederwertigen drei Bits (die nationale Variante) an.
Anmerkungen zum G0-Zeichensatz:
- Bei der X/26-Auswahl und allen anderen X/26-Funktionen zur Zeichenauswahl wird bei Lateinisch (grün hinterlegt) immer die Variante „Standard“ verwendet.
- Isländische Sender verwenden die lateinische G0-Variante „Portugiesisch/Spanisch“ und den lateinischen G2-Ergänzungszeichensatz.[40]
Anmerkungen zum zweiten G0-Zeichensatz:
Level | Priorität | Auswahlbits für Standard-G0/G2 | G0-Zeichensatz | G1-Zeichensatz | G2-Zeichensatz | |||||
---|---|---|---|---|---|---|---|---|---|---|
1 = höchste |
höherwertig | niederwertig | Standard | Zweiter G0 | X/26-Auswahl | Standard | Standard | X/26-Auswahl | ||
X/0 (Seitenkopf) | alle | 8 | Decoder 1 | Seitenkopf | ● | ○ 2 | ○ 3 (ab Level 1.5) |
|||
X/28/1 | ≤ 1.5 4 | 4 | Paket | Seitenkopf | ● | ○ 5 | ● | ○ 5 (ab Level 1.5) |
||
M/29/1 | ≤ 1.5 4 | 7 | Paket | Seitenkopf | ● | ○ 5 | ● | ○ 5 (ab Level 1.5) |
||
X/28/0 Format 1 | ≥ 2.5 | 2 | Paket | Seitenkopf (bei manchen Level-2.5-Decodern aus dem Paket) |
● | ● | ● | |||
X/28/4 | ≥ 3.5 | 3 | Paket | Seitenkopf | ● | ● | ● | |||
M/29/0 | ≥ 2.5 | 5 | Paket | Seitenkopf (bei manchen Level-2.5-Decodern aus dem Paket) |
● | ● | ● | |||
M/29/4 | ≥ 3.5 | 6 | Paket | Seitenkopf | ● | ● | ● | |||
X/26-Spaltenfunktion … … 08hex „Modified G0 and G2 Character Set“ |
≥ 2.5 | 1 | ● 6, 7 | ● 7 |
Voreinstellungen für jede Teletext-Seite:
Anmerkungen zu den Paketen X/28/1 und M/29/1:
Anmerkungen zur X/26-Auswahl:
Level | Steuerzeichen 00hex..1Fhex |
G0-Zeichensatz | G1-Zeichensatz | G2-Zeichensatz | G3-Zeichensatz | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Standard | Zweiter G0 | X/26-Auswahl | Zeichen 2Ahex | Lateinische Variante | Standard a | Standard | X/26-Auswahl | Standard b | |||
X/0 bis X/25 Einfache Level-1-Teletext-Seite | alle | ● 1 | ● 2, 3 | ● 3 | * | national | ● 4 | ||||
X/26-Spaltenfunktion … | |||||||||||
… 10hex „G0 Character“ | ≥ 1.5 | ● | ● (ab Level 2.5) |
@ | Standard | ||||||
… 09hex „G0 Character (Levels 2.5 & 3.5)“ | ≥ 2.5 | ● | ● | * | Standard | ||||||
… 11hex bis 1Fhex „G0 Character with diacritical mark“ | ≥ 1.5 | ● | ● (ab Level 2.5) |
* | Standard | kombinierend | kombinierend (ab Level 2.5) |
||||
… 01hex „G1 Character“ | ≥ 2.5 | ○ 5 | ○ 5 | Standard | ● 5 | ||||||
… 0Fhex „G2 Character“ | ≥ 1.5 | ● 6 | ● (ab Level 2.5) |
||||||||
… 02hex „G3 Character (Level 1.5)“ | ≥ 1.5 | ● 6 | |||||||||
… 0Bhex „G3 Character (Levels 2.5 & 3.5)“ | ≥ 2.5 | ● |
Anmerkungen zu den G1- und G3-Zeichensätzen:
Anmerkungen zur einfachen Level-1-Teletext-Seite:
Anmerkung zur X/26-Spaltenfunktion 01hex „G1 Character“:
Anmerkung zu den X/26-Spaltenfunktionen 0Fhex „G2 Character“ und 02hex „G3 Character (Level 1.5)“:
Weblinks
- ETSI EN 300 706 – Enhanced Teletext specification (2003) und ETS 300 706 (1997), ETSI (englisch)
- ITU-T Recommendation T.101 : International interworking for Videotex services (1994) und ITU-T Recommendation T.101, Annex C (1990), ITU (englisch)
- EBU Tech 3232 – Displayable Character Sets for Broadcast Teletext und EBU Tech 3232-a – Appendices, EBU, 1982 (englisch)
- STV5348 (PDF) STMicroelectronics, 2004 (englisch)
- Philips SAA5243 (1991), Philips SAA5244A (1992), Philips SAA5249 (1996), Philips SAA5254 (1996), Philips SAA5281 (1996), Philips SAA5288 (1997) und Philips SAA5290 (1995), Philips (englisch)
- The Cyrillic Charset Soup, Roman Czyborra, 1998 (englisch)
- Notes on some Unicode Arabic characters: recommendations for usage (PDF; 218 kB) Jonathan Kew, Draft 2, 2005 (englisch)
- Unicode 8.0 Character Code Charts, Unicode, 2015 (englisch)
- Graphic character identifiers, IBM (englisch)
- Keld Simonsen: RFC – Character Mnemonics & Character Sets. 1992 (englisch).
Einzelnachweise
- Philips SAA5246A (PDF) Philips, 1993 (englisch)
- Character histories: notes on some Ascii code positions, Jukka „Yucca“ Korpela, 2006 (englisch);
7-bit character sets, Aivosto Oy, 2016 (englisch) - Viertelgeviertstrich, Bindestrich/Divis, Wikipedia: „Im älteren ASCII-Zeichensatz und in den Zeichensätzen der Normenfamilie ISO 8859 [...] wird das Bindestrich-Minus verwendet, das als gemeinsames Zeichen für Bindestrich, Gedankenstrich und Minuszeichen mit der Schreibmaschine eingeführt wurde.“;
IT and communication - Characters and encodings: The ISO Latin 1 character repertoire: Detailed descriptions of the characters, „- HYPHEN, MINUS SIGN (HYPHEN-MINUS) U+002D“, Jukka „Yucca“ Korpela, 2006 (englisch): „In situations where sufficient support to Unicode can be safely assumed (very rarely at present!), it is best to replace the use of hyphen-minus by Unicode hyphen (U+2010) or non-breaking hyphen (U+2011) or minus sign (U+2212) or, if hyphen-minus had been used e.g. in place of a dash symbol, some other Unicode character such as en dash (U+2013) or em dash (U+2014) or horizontal bar (U+2015).“ - Minuszeichen, Ähnliche Zeichen, U+2015 horizontal bar, Wikipedia: „(2) Dieses Zeichen gleicht im Regelfall in Länge, Form und Höhenlage einem Geviertstrich und unterscheidet sich von diesem nur durch seine Zeilenumbruch-Eigenschaften.“
- On the use of some MS Windows characters in HTML, Suggested substitutes, Dashes, Jukka „Yucca“ Korpela, 2017 (englisch): „In typewritten material, the em dash is represented by two hyphens with no space around them, and an en dash is represented by a hyphen.“
- Internationalization for Turkish: Dotted and Dotless Letter "I", Tex Texin, 2010 (englisch);
Resolving dotted and dotless "i", John Cowan, 1997 (englisch) - Zirkumflex, Zeichensätze, Wikipedia: „Der Zeichensatz ASCII enthält nur das Zeichen ^ (in Unicode an Position U+005E), das heute als einzeln stehendes, universell einsetzbares Zeichen interpretiert wird. [...] Im Unicode-Standard sind zusätzlich zum Universalzeichen ^ (U+005E) das typografisch bessere Zeichen ˆ (U+02C6) sowie weitere fertig zusammengesetzte Zeichen mit Zirkumflex enthalten (z. B. Ẑ, ẑ).“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM43 Arrowhead upwards, circumflex shape“ - ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM48 Lower bar (not jointive) low line, spacing underline (equivalent to SP09 of ISO 6937)“
- „Additionally ASCII grave accent character (U+0060 ` Grave accent) was often used as surrogate of opening single quote, together with ASCII typewriter apostrophe (U+0027 ' Apostrophe) used as closing single quote; double quotes were sometimes substituted by two consecutive grave accents and two consecutive typewriter apostrophes (``…'').“;
ASCII and Unicode quotation marks, Markus Kuhn, 2007 (englisch): „Only old X Window System fonts and some old video terminals show ASCII 0x60/0x27 as left and right quotation marks, while most modern systems follow the ISO and Unicode standards instead.“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM44 Upper reverse solidus, grave accent shape“ - Character histories: notes on some Ascii code positions, VERTICAL LINE, Jukka „Yucca“ Korpela, 2006 (englisch)
- Unicode Explained, Chapter 8: Character Usage, ASCII (Basic Latin), Tilde ~ (U+007E), S. 401, Jukka K. Korpela, 2006 (englisch): „As a spacing clone of a diacritic tilde (i.e., spacing counterpart of combining tilde U+0303), use the small tilde ˜ (U+02CD [richtig: U+02DC]).“;
ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 77, ITU, 1994 (englisch): „SM47 Upper bar (not jointive) bar or tilde shape“ - Liste lateinisch-basierter Alphabete, Erweiterungen, Wikipedia;
Alles über Unicode, Litauische Sonderzeichen, Jens Meyer, 2007;
Sonderbuchstaben und diakritische Zeichen für die europäischen Sprachen des lateinischen Schriftkreises (PDF; 253 kB) Wolfgang Hendlmeier und Gerhard Helzel, 2012 - Hatschek, Verwendung und Zeichensätze, Wikipedia: „In modernen Druckschriften wird das Zeichen auf dem Großbuchstaben L sowie auf den Kleinbuchstaben d, l und t häufig in einer Form ähnlich einem Komma rechts oben neben dem Grundzeichen dargestellt.“
und „Es ist zu beachten, dass diese Codes auch dann verwendet werden, wenn das Hatschek auf d, l, L und t in Kommaform dargestellt wird.“ - Telefontastatur, Empfehlung ITU-T E.161, Platzierung, Aussehen und Benennung des Symbols ⌗, Wikipedia: „Dieses Symbol ist in Unicode als U+2317 viewdata square enthalten [...]. Dabei müssen die Linienenden bei der quadratischen Form pro Seite zwischen 8 % und 18 % der Kantenlinienlänge überstehen, bei der schrägen Form (Innenwinkel 80°) stets um 18 %.“;
Proposal to incorporate two telephony symbols into Unicode by glyph and annotation changes (PDF; 135 kB) Karl Pentzlin, 2013 (englisch): „The viewdata square, as its name implies, is introduced anyway as a character for "Viewdata" which is an application related to telephony introduced in the 1980s. It can be presumed that it had to be in fact the same symbol as the E.161 symbol.
However, the proportions of its representative glyph are not within the constraints given in E.161.“;
ITU-T Recommendation E.161 : Arrangement of digits, letters and symbols on telephones and other devices that can be used for gaining access to a telephone network, 3.2.2 12 push-buttons, Symbols, S. 3+4, ITU, 2001 (englisch) - ITU-T Recommendation T.101 : International interworking for Videotex services, I.1.2.7 Miscellaneous, S. 76, ITU, 1994 (englisch): „SM12 Central horizonal bar jointive“
- Keld Simonsen: RFC – Character Mnemonics & Character Sets. 1992 (englisch).
- ż, Wiktionary: „Als typographische Variante existiert ƶ/Ƶ. Diese wird jedoch in der Regel nur dann verwendet, wenn das ganze Wort in Majuskeln geschrieben wird und oberhalb des Z nicht mehr ausreichend Platz für den Punkt zur Verfügung steht.“;
Teletext mappings, Marcin „Qrczak“ Kowalczyk, 2001 (englisch): „In Polish capital Z with dot above is sometimes rendered with stroke instead of the dot. It’s just a glyph variant, the meaning is exactly the same. The letter should be consistently encoded as Z WITH DOT ABOVE even if it’s rendered with a stroke.“ - Unterkomma, Kodierung, Wikipedia: „Bis Anfang der 1990er Jahre wurde in internationalen Standards kein Unterschied zwischen dem Komma und der Cedille gemacht. [...] Erst später setzte sich die Auffassung durch, dass es sich hierbei um zwei verschiedene Diakritika handelt. So enthält Unicode heute sowohl S und T mit Cedille als auch S und T mit Komma.“;
ISO/IEC 6937:2001 (PDF; 748 kB) Table 4 - Specification of the repertoire, S. 15 und 18, ISO/IEC, 2001 (englisch): „NOTE 2: The letters used in the Romanian language LATIN CAPITAL LETTER S WITH COMMA BELOW and LATIN CAPITAL LETTER T WITH COMMA BELOW are different from the LATIN CAPITAL LETTER S WITH CEDILLA and LATIN CAPITAL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“
und „NOTE 5: The letters used in the Romanian language LATIN SMALL LETTER S WITH COMMA BELOW and LATIN SMALL LETTER T WITH COMMA BELOW are different from the LATIN SMALL LETTER S WITH CEDILLA and LATIN SMALL LETTER T WITH CEDILLA. However, subject to the agreement of originator and receiver in information interchange, the letters WITH CEDILLA may be used to substitute for the letters WITH COMMA BELOW.“;
Cedillas and commas below (PDF; 164 kB) Eric Muller, Adobe, 2013 (englisch);
Comments on cedilla and comma below (revision 2) (PDF; 1,9 MB) Denis Moyogo Jacquerye, 2013 (englisch);
Romanian diacritic marks, Cristian Kit Paul, 2008 (englisch) - Überstrich, Verfügbare Zeichen, Wikipedia: „In mehreren Zeichensätzen der Normenfamilie ISO 8859 und davon abgeleitet auch im Unicode-Standard existiert ein Zeichen U+00AF (175dec), das gleichermaßen als Überstrich wie auch als Makron verwendbar ist. [...] Der Überstrich wird unter anderem deshalb häufig falsch als „Makron“ bezeichnet, sollte jedoch nicht mit den anderen Unicode-Zeichen dieses Namens verwechselt werden. Die Schriftzeichen an den Kodepunkten U+02C9 (modifier letter macron) sowie U+0304 (combining macron) sind deutlich kürzer als ihre mit overline benannten Gegenstücke.“
- Die moderne Bibliothek, 10.2.4 Zeichensatz und 10.2.5 Sortierung (Alphabetisierung), S. 229–232, Rudolf Frankenberger und Klaus Haller, 2004
- Trema, Unicode, Wikipedia: „Die meisten Standards für Zeichensätze, darunter Unicode, unterscheiden nicht zwischen Umlaut und Trema. Wenn in der Datenverarbeitung eine Unterscheidung von Umlaut und Trema notwendig ist, empfiehlt ISO/IEC JTC 1/SC 2/WG 2 Folgendes:
• Darstellung des Tremas durch: Combining Grapheme Joiner (CGJ, 034F) + Combining Diaeresis (0308)
• Darstellung des Umlauts durch: Combining Diaeresis (0308)“;
Frequently Asked Questions, Characters and Combining Marks, „Q: Unicode doesn’t seem to distinguish between tréma and umlaut, but I need to distinguish. What shall I do?“, Unicode, 2016 (englisch) - Unicode Technical Note #27 – Known Anomalies in Unicode Character Names, Unicode, 2017 (englisch)
- CCITT Recommendation T.61 : Character repertoire and coded character sets for the international teletex service, 3.2.3.9 Non-spacing characters, S. 13, ITU, 1988 (englisch): „Note – The Non-spacing underline character is never used individually but always in combination with some other graphic character to represent the graphic rendition “underlined” for the associated character. The Non-spacing underline character can be used in combination with any graphic character of the repertoire, including an accented letter or an umlaut, or Space. It is recommended to implement the “underline” function by means of the control function SGR(4) instead of the “non-spacing underline” graphic character.“
- Proportionality Symbol, Doctor Peterson, 2003 (englisch): „If you prefer to describe it by its appearance rather than strictly by its usage, you might call it an "open alpha" or "loose alpha," rather than "fishy alpha." People do often describe it (wrongly) as an alpha, but I haven't seen these modifiers used anywhere.“
- „The upper case, or majuscule form has never been included in any international keyboards Therefore, it is decomposable by simply combining ʼ (U+02BC) and N. 〔ʼN〕“;
Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0149 ʼn LATIN SMALL LETTER N PRECEDED BY APOSTROPHE, Unicode, 2017 (englisch): „uppercase is 02BC ʼ 004E N“ - „The letter can be capitalized as Kʼ, but it is not encoded separately as a single letter because it is very similar to the Latin capital letter K followed by an apostrophe, preferably the modifier letter apostrophe, U+02BC ʼ modifier letter apostrophe (HTML ʼ).“;
Status of Mapping between Characters of ISO 5426-2 and ISO/IEC 10646-1 (UCS) (PDF; 126 kB) 4. ADDITIONAL MAPPINGS, 63 LATIN CAPITAL LETTER KRA, S. 5, Joan M. Aliprand, 2002 (englisch): „The capital form of the letter kra letter can be encoded as the sequence U+004B LATIN CAPTIAL LETTER K followed by U+02BC MODIFIER LETTER APOSTROPHE.“ - Unicode 10.0 Character Code Charts, Latin Extended-A (PDF; 203 kB) 0131 ı LATIN SMALL LETTER DOTLESS I, Unicode, 2017 (englisch): „uppercase is 0049 I“
- ß, Großschreibweise und Besonderheiten der Verwendung, sowie Großes ß, Versalien ohne großes ß, Wikipedia;
Unicode 10.0 Character Code Charts, C1 Controls and Latin-1 Supplement (PDF; 573 kB) 00DF ß LATIN SMALL LETTER SHARP S, Unicode, 2017 (englisch): ‚uppercase is “SS”‘ - Großes ß, Wikipedia: „Anfang 2008 wurde das große ß als neues Zeichen in den internationalen Standard Unicode für Computerzeichensätze aufgenommen, am 24. Juni 2008 trat die entsprechende Ergänzung der Norm ISO/IEC 10646 in Kraft. Seit dem 29. Juni 2017 ist das ẞ Bestandteil der amtlichen deutschen Rechtschreibung.“
- „Dzhe corresponds in other Cyrillic alphabets to the digraphs дж or чж, or to the letters Che with descender (Ҷ ҷ), Che with vertical stroke (Ҹ ҹ), Khakassian Che (Ӌ ӌ), Zhe with breve (Ӂ ӂ), Zhe with diaeresis (Ӝ ӝ), or Zhje (Җ җ).“
- Jo, Wikipedia: „Ё wird vor allem in Druckerzeugnissen durch Е ersetzt, [...].“;
Russisches Alphabet, Ё ё, URRA Interactive: „Anmerkungen: [...] – wird oft ohne die zwei Punkte geschrieben“ - „When not available, the character ⟨ѝ⟩ is often replaced by an ordinary ⟨и⟩ (not recommended, but still orthographically correct) or in Bulgarian by the letter ⟨й⟩ (formally this is considered a spelling error).“
- Tonos, Wikipedia: „In manchen Schriftarten steht der Tonos senkrecht, also in einer im Gegensatz zum nach rechts geneigten Akut und zum nach links geneigten Gravis ‚neutralen‘ Position, bisweilen ist er auch nur ein Punkt, ein auf der Spitze stehendes Dreieck o. Ä. Dieser Usus stammt aus den 1970er Jahren, also aus der Zeit vor der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung, als Orthographiereformer auf diese Weise einen ‚neutralen‘ Akzent benutzten, der sich von den in der polytonischen Orthographie vorhandenen unterscheiden musste. Mit der offiziellen Einführung der monotonischen Orthographie durch die griechische Regierung 1980 wurde die Unterscheidung des Tonos von den polytonischen Akzenten jedoch unnötig, und alle Stilvorgaben sehen vor, dass der monotonische Tonos graphisch identisch mit dem polytonischen Akut ist. So ist es auch in Unicode vorgesehen.“
- Arabic character tail for final Seen family (Seen, Sheen, Saad, Daad) (PDF; 300 kB) IBM Egypt, 2001 (englisch)
- Philips SAA5x9x family (PDF) 9.19 Horizontal timing, 9.20 Vertical timing, „Fig.15 625-line display format.“ und „Fig.16 525-line display format.“, S. 46–49, Philips, 1998 (englisch)
- Unicode Fonts for Ancient Scripts, George Douros, 2020 (englisch)
- Unicode 13.0.0, Unicode, 2020 (englisch);
The Unicode Consortium auf Twitter, Unicode, 2019 (englisch);
Proposal to add characters from legacy computers and teletext to the UCS (PDF; 3,9 MB) Doug Ewell, Rebecca Bettencourt und andere, 2019 (englisch);
Map from Teletext G1 character set to Unicode, Rebecca Bettencourt, 2018 (englisch);
Map from Teletext G3 character set to Unicode, Rebecca Bettencourt, 2018 (englisch) - Unicode Technical Report #25 – Unicode Support for Mathematics, 2.11 Geometrical Shapes, Unicode, 2007 (englisch)
- Recommendations and Reports of the CCIR, 1982, Volume XI — Part 1, Broadcasting Service (Television) (PDF; 13 MB) Report 957 – Characteristics of teletext systems, Annex I – United Kingdom teletext system, Figure 14 — Smoothed mosaic graphics set, S. 119, ITU, 1982 (englisch)
- Bug Reports DVBViewer Pro/GE – Teletext with Cyrillic, Griga, 2012 (englisch): „P.S. The following screenshot from Derrick’s sample (see above) shows clearly which characters originate from which source:
- White characters are from the Latin G0 Character Set (identical for all countries with a latin alphabet)
- Red characters are from the Spanisch/Portuguese National Option Subset.
- Green characters added by packets X/26 are from the Latin G2 Supplementary Set.“ - Siemens MEGATEXT PLUS SDA 5275-2 Delta Specification / Application Notes (PDF) 2.5.2 Example for Russian Market, S. 56, Siemens, 1998 (englisch): „The bit SEC_LA should be set and the secondary language should be defined to English because currently, no Russian broadcaster transmits packet X/28 or X/29.“
- Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table, e.g. to change from the Hebrew alphabet to the Arabic alphabet on an Arab/Hebrew device.“
- Philips SAA5x9x family (PDF) 9.5 The twist attribute, S. 40, Philips, 1998 (englisch): „In many of the character sets, the ‘twist’ serial attribute (code 1BH) can be used to switch to an alternate basic character code table [...]. For some national option languages the alternate code table is the default, and a twist control character will switch to the first code table.“