GB2312
GB2312 ist ein Zeichensatz (englisch Coded Character Set) für vereinfachte chinesische Schriftzeichen, der 1980 eingeführt wurde. Er umfasst insgesamt 7.445 Zeichen, davon 6.763 chinesische Schriftzeichen.
Alle Zeichen sind in einer 94×94-Matrix angeordnet[1], somit sind maximal 8.836 Zeichen möglich. Dieses System wird auch von JIS X 0208 und KS X 1001 verwendet.
Der erste Bereich (Zeile 1 bis 9) kodiert Satzzeichen sowie die griechische Schrift, die kyrillische Schrift, japanische Kana, Zhuyin sowie Buchstaben für Pinyin. Die beiden anderen Bereiche enthalten chinesische Schriftzeichen: In Zeile 16 bis 55 sind chinesische Schriftzeichen nach der Pinyin-Transliteration sortiert, die Zeilen 56 bis 87 enthalten chinesische Schriftzeichen nach der Sortierung im Kangxi-Wörterbuch.
Kodierung
Vom Zeichensatz selbst ist die Kodierung (englisch Character Encoding Scheme) zu unterscheiden.[2]
GB2312 wird normalerweise in Form von EUC-CN verwendet. Dabei sind die beiden Zeichensätze US-ASCII (als 1-Byte-Zeichen) und GB2312 (als 2-Byte-Zeichen) kombiniert. Zur Unterscheidung von den ASCII-Zeichen wird zu den Zeilen- und Spalten-Nummern der GB2312-Zeichen jeweils 160 (0xA0) addiert, so dass Bytes im Bereich 0xA1 bis 0xFF entstehen. Das 1. Byte entspricht dabei der Zeilennummer, das 2. Byte der Spaltennummer.
Im Mailverkehr war auch die 7-Bit-Kodierung HZ üblich.
Weiterentwicklung
1995 wurde GB2312 durch die Spezifikation GBK erweitert, die jedoch nie offizielle Norm wurde und somit keine GB-Nummer bekam.[3] Durch die Verwendung unter Windows fand sie jedoch große Verbreitung.
2000 wurde GB2312 offiziell von GB18030 abgelöst, wird jedoch weiterhin häufig verwendet.
Verwendung unter Windows
Unter Windows ist GB2312 in der EUC-CN-Kodierung als Codepage 20936 verfügbar.
Dazu muss unter Windows XP die Erweiterungsoption „Dateien für ostasiatische Sprachen“ installiert sein. Unter Windows 7 ist keine Erweiterungsoption notwendig, GB2312 ist hier standardmäßig verfügbar.
An einigen Stellen wird unter Windows jedoch die Codepage 936 fälschlicherweise als GB2312 bezeichnet. In Wirklichkeit ist Codepage 936 eine Implementierung von GBK.
Im Dialog „Dateikonvertierung“ von Microsoft Word 2003 und Word 2010 wird Codepage 936 als „Chinesisch vereinfacht (GB2312)“ und Codepage 20936 als „Chinesisch vereinfacht (GB2312-80)“ zur Auswahl angeboten.
Weblinks
- Zeichentabelle GB2312 bei O’Reilly (PDF; 3,6 MB) oder bei C. Wittern, Kyoto (PDF; 3,6 MB) (Anmerkung: Zeile 10 und 11 dieser Darstellung enthalten die halbbreiten Varianten der ASCII-Zeichen (aus Zeile 3) und der für Pinyin verwendeten lateinischen Sonderzeichen (aus Zeile 8). Diese Inhalte sind nachträgliche Ergänzungen.)
- Zeichentabelle in der Form von EUC-CN. Ngai Kim Hoong (englisch).
Einzelnachweise
- Ken Lunde: CJKV Information Processing. 1. Auflage. O’Reilly, 1999, ISBN 1-56592-224-7. 2. Auflage: 2009, ISBN 0-596-51447-6; App. E. (Memento des vom 22. November 2004 im Internet Archive; PDF) Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis. (PDF; 3,6 MB)
- RFC – IANA Charset Registration Procedures. Oktober 2000 (englisch).
- siehe GB Standard