Common Locale Data Repository
Das Common Locale Data Repository (kurz CLDR) ist ein Projekt des Unicode-Konsortiums, um Locale-Informationen für Anwendungsprogramme zur Verfügung zu stellen. Es unterstützt damit die Internationalisierung und Lokalisierung. Die Daten liegen in der XML-basierten Sprache LDML (Locale Data Markup Language) vor.
Geschichte
Ursprünglich wurde das CLDR von einer Arbeitsgruppe der Free Standards Group entwickelt, die von IBM, Sun Microsystems und OpenOffice.org gegründet wurde. Die erste Version wurde Anfang 2004 veröffentlicht.[1] Anschließend wurde das Projekt unter Leitung des Unicode-Konsortiums weitergeführt. Neue Versionen mit erweiterten und verbesserten Daten werden normalerweise zwei Mal im Jahr veröffentlicht, aktuell ist seit Juni 2023 die Version 43.1.[2]
Daten
Die Daten liegen als XML-Dateien in der Sprache LDML (Locale Data Markup Language) vor.[3]
Als Beispiel für das Format kann der folgende kleine Ausschnitt aus einer der Dateien für Deutsch dienen:
<ldml>
<localeDisplayNames>
<languages>
<language type="en">Englisch</language>
<language type="fr">Französisch</language>
</languages>
<territories>
<territory type="AT">Österreich</territory>
<territory type="CH">Schweiz</territory>
<territory type="CI">Côte d’Ivoire</territory>
<territory type="CI" alt="variant">Elfenbeinküste</territory>
<territory type="DE">Deutschland</territory>
</territories>
</localeDisplayNames>
<delimiters>
<quotationStart>„</quotationStart>
<quotationEnd>“</quotationEnd>
</delimiters>
<dates>
<calenders>
<calender type="generic">
<dateFormats>
<dateFormatLenght type="long">
<dateFormat>
<pattern>d. MMMM y G</pattern>
</dateFormat>
</dateFormatLenght>
</dateFormats>
</calender>
</calenders>
<timeZoneNames>
<zone type="Europe/Vienna">
<exemplarCity>Wien</exemplarCity>
</zone>
</timeZoneNames>
</dates>
</ldml>
Das Beispiel zeigt Lokalisierungen für die Namen von Sprachen und Ländern, Anführungszeichen und verschiedene Informationen zu Datums- und Zeitangaben, hier das Muster für lange Datumsangaben und die Angabe einer Zeitzone.
Die Werte für ein Locale können an Unter-Locales weitervererbt werden, sodass die Daten nicht unnötig dupliziert werden müssen. Entsprechend werden für de-CH
, also Schweizerdeutsch, nur wenige Daten angeführt, der größte Teil wird von de
, also Standarddeutsch, übernommen. Ausgangspunkt für die Vererbung ist für alle Locales root
, nach dem englischen Wort für „Wurzel“.
Das Projekt umfasst unter anderem folgende Daten:
- Übersetzungen für
- Sprachen
- Schriftsysteme
- Länder
- Datum und Uhrzeit
- Namen von Kalendern
- Formate für Zeitpunkte und Zeitintervalle
- Namen von Zeitzonen
- Zahlen
- Zeichen für Tausendertrenner, Dezimaltrennzeichen, Vorzeichen und weitere
- verschiedene Zahlenformate
- Regeln zur Darstellung von Zahlen in Wörtern
- Namen und Symbole für Währungen
- Pluralregeln
- Namen von Einheiten
- Formate für Postleitzahlen
- Anpassungen der Unicode-Segmentierungsalgorithmen (etwa Angaben von Abkürzungen, deren Punkt kein Satzende darstellt)
- Sortierregeln, die im Unicode Collation Algorithm und dessen Erweiterungen Anwendung finden
- Sprachspezifische Regeln für die Unicode-Casing-Algorithmen
- Regeln für Transliterationen
Die Daten sind für mehr als 740 Locales verfügbar, die über 200 verschiedene Sprachen umfassen, für viele aber nicht vollständig.[4]
Verwendung
Zur Nutzung der Daten des CLDR stehen für alle gängigen Programmiersprachen Bibliotheken zur Verfügung, darunter auch die des ICU-Projekts.
CLDR wird in zahlreichen Softwareprodukten eingesetzt, Apple verwendet es beispielsweise in seinen Betriebssystemen Mac OS X und iOS, Google Inc. in seinen Webanwendungen und dem Browser Google Chrome.[5] MediaWiki, die Software, mit der unter anderem Wikipedia betrieben wird, nutzt CLDR ebenfalls für seine vielfältigen Sprachversionen.[6]
CLDR enthält auch Konversionswerkzeuge, um aus den Daten POSIX-Locales zu erhalten.[7]
Weblinks
Einzelnachweise
- Acknowledgments. Unicode CLDR Project; abgerufen 13. November 2013.
- CLDR 43.1 Release Note. Unicode CLDR Project; abgerufen 30. Juni 2023.
- Unicode Technical Standard #35 – Unicode Locale Data Markup Language (LDML). In: unicode.org, abgerufen am 13. November 2013.
- CLDR 24 Release Note. (Memento vom 3. Dezember 2013 im Internet Archive) Unicode CLDR Project; abgerufen 13. November 2013.
- Who uses CLDR? Unicode CLDR Project; abgerufen 13. November 2013.
- mw:Extension:CLDR.
- POSIX Data. Unicode CLDR Project; abgerufen 13. November 2013.