Dokumenttypdefinition
Eine Dokumenttypdefinition (englisch Document Type Definition), abgekürzt DTD, ist ein Satz an Regeln, der benutzt wird, um Dokumente eines bestimmten Typs zu deklarieren. Ein Dokumenttyp ist dabei eine Klasse ähnlicher Dokumente, wie beispielsweise Telefonbücher oder Inventurdatensätze. Die Dokumenttypdefinition besteht dabei aus Elementtypen, Attributen von Elementen, Entitäten und Notationen. Konkret heißt das, dass in einer DTD die Reihenfolge, die Verschachtelung der Elemente und die Art des Inhalts von Attributen festgelegt wird, also die Struktur des Dokuments.
Eine DTD spezifiziert die Syntax einer Anwendung von SGML oder XML, wie beispielsweise die von ihnen abgeleiteten Sprachen HTML oder XHTML. Diese Syntax ist normalerweise in einer weniger generellen Form gehalten als die SGML- oder XML-Syntax.
Funktion
Die Syntax und Semantik einer DTD ist Bestandteil der SGML- und XML-Spezifikation. Die DTD wird bereits beim Lesen des Dokumentes geprüft. In SGML muss jedem Dokument zwingend eine DTD zugeordnet sein. In XML ist diese Zuordnung optional. Ein Dokument auf Basis von DTD (<?xml version="1.0"?><!DOCTYPE ...>
) gewährleistet die Richtigkeit der angewendeten DTD, also der vorgesehenen Syntax und Semantik. Die Korrektheit der Daten steht hier im Vordergrund. Ein Dokument ohne extern referenzierte DTD oder eingeschlossene DTD wird beim Lesen nur nach der Wohlgeformtheit geprüft. Die schnelle Lesbarkeit steht hier im Vordergrund. Der Inhalt kann von der gewünschten Syntax und Semantik abweichen. Für beide Fälle kann mit zusätzlichen Prozessen die Qualität der Daten nachträglich geprüft werden.
Hinweis: Im Folgenden werden die Beispiele jeweils in XML-Syntax angegeben.
Dokumenttypdeklaration (DOCTYPE)
Eine Dokumenttypdeklaration stellt die Verbindung zwischen einem Dokument und der DTD her. Die Dokumenttypdeklaration wird am Beginn eines Dokumentes vor dem Wurzelelement angegeben. Die DTD kann als externe Datei referenziert werden (externe DTD) oder aber auch direkt im Dokument eingebunden werden (interne DTD).
Die Syntax für eine Dokumenttypdeklaration lautet in SGML und XML:
<!DOCTYPE Wurzelelement SYSTEM "datei.dtd">
<!DOCTYPE Wurzelelement SYSTEM "datei.dtd" [ … ]>
<!DOCTYPE Wurzelelement PUBLIC "Public Identifier" "datei.dtd">
<!DOCTYPE Wurzelelement PUBLIC "Public Identifier" "datei.dtd" [ … ]>
<!DOCTYPE Wurzelelement [ … ]>
In SGML sind zusätzlich auch folgende Varianten ohne System-Identifikator zulässig:
<!DOCTYPE Wurzelelement PUBLIC "Public Identifier">
<!DOCTYPE Wurzelelement PUBLIC "Public Identifier" [ … ]>
In HTML5 gibt es zwar keine DTD mehr, die Dokumenttypdeklaration existiert aber in einer verkürzten Form weiter:
<!DOCTYPE html>
Der System-Identifikator (SYSTEM), im Beispiel der Eintrag datei.dtd
, enthält den Dateinamen der externen DTD. Der Dateiname kann als beliebiger URI angegeben werden.
Der Public-Identifikator (PUBLIC) enthält einen öffentlich bekannten Identifikator für die DTD. Zum Beispiel wird mit dem Identifikator "-//W3C//DTD XHTML 1.0 Strict//EN"
die DTD für XHTML eindeutig deklariert. Wenn der Identifikator dem System bekannt ist, verwendet das System die damit assoziierte DTD und lädt nicht die direkt angegebene DTD aus dem System-Identifikator. In Web-Browsern wird so das wiederholte Laden der DTD vermieden.
Der Eintrag [ ... ]
kennzeichnet eine interne DTD oder Ergänzungen zu einer DTD.
Markup-Deklarationen
Innerhalb einer DTD kann die Dokumentstruktur mit Deklarationen von Elementtypen, Attributlisten, Entities und Notationen und Textblöcken definiert werden. Dabei können spezielle Parameter-Entities benutzt werden, die DTD-Teile enthalten und nur innerhalb der DTD erlaubt sind.
Textblöcke sind entweder CDATA oder PCDATA.
Die Strukturelemente (Building Blocks) werden über Attribut-Zuordnungen definiert:
CDATA
CDATA (englisch Character Data) kennzeichnet einen ungeparsten Textblock. Die Syntax für einen CDATA-Bereich lautet:
<![CDATA[Zeichendaten]]>
Im Bereich Zeichendaten sind alle Zeichen erlaubt, ausgenommen das Erkennungsmuster für das Ende ]]>
des CDATA-Bereiches. Beispiel:
<![CDATA[<Diese><Daten>werden<nicht><geparst>.]]>
Innerhalb einer Entitätendefinition in XML lautet die Syntax:
<!ENTITY amp "Zeichendaten">
In SGML muss das Schlüsselwort CDATA explizit angegeben werden:
<!ENTITY amp CDATA "Zeichendaten">
Im Bereich Zeichendaten sind alle Zeichen erlaubt, ausgenommen der Endekennung der Zeichenkette "
bei "..."
-Zeichenketten oder '
bei '...'
-Zeichenketten. Beispiel:
<!ENTITY amp CDATA "&">
Die Zeichendaten &
werden vom Parser nicht analysiert.
PCDATA
Für PCDATA (englisch Parsed Character Data) wird das Schlüsselwort #PCDATA verwendet. Damit wird ein Textblock, der auch weitere Anweisungen an den Parser enthalten kann, gekennzeichnet. Der Inhalt dieses Textblocks wird syntaktisch vom Parser analysiert. Im Gegensatz zu CDATA dürfen nur Zeichen enthalten sein, die keine Tags, Deklarationen oder Verarbeitungsanweisungen einleitet. Verboten sind hier beispielsweise <
(z. B. Startzeichen eines Tags, z. B. <Beispiel>
).
Element-Deklarationen (ELEMENT)
Mit einer Elementtyp-Deklaration wird ein Element und sein möglicher Inhalt definiert. In einem validen Dokument dürfen nur Elemente vorkommen, die in der DTD definiert sind.
Der Inhalt eines Elementes kann durch die Angabe anderer Elementnamen und durch einige Schlüsselwörter und Zeichen angegeben werden.
#PCDATA
für Zeicheninhalte (siehe PCDATA)EMPTY
für keinen InhaltANY
für beliebigen Inhalt,
für Reihenfolgen|
für Alternativen (im Sinne „entweder…oder“)()
zum Gruppieren*
für beliebig oft (aufeinander folgen)+
für mindestens einmal?
für keinmal oder genau einmal- Wird kein Stern, Pluszeichen oder Fragezeichen angegeben, so muss das Element genau einmal vorkommen
<!ELEMENT html (head, body)>
<!ELEMENT hr EMPTY>
<!ELEMENT div (#PCDATA | p | ul | ol | dl | table | pre | hr |
h1|h2|h3|h4|h5|h6 | blockquote | address | fieldset)*>
<!ELEMENT dl (dt|dd)+>
Attribut-Deklarationen (ATTLIST)
Attribute werden innerhalb einer Attributliste <!ATTLIST Elementname Attributliste>
definiert. Die Attributliste enthält durch Leerzeichen oder Zeilenumbrüche getrennt jeweils den Attributnamen, den Typ und Vorgaben der einzelnen Attribute.
Beispiele für Elemente:
- ID
- IDREF und IDREFS
- NMTOKEN und NMTOKENS
- NOTATION und NOTATIONS
- Aufzählungen und NOTATION-Aufzählungen
Mit den Attribut-Vorgaben kann angegeben werden, ob ein Attribut vorkommen muss (#REQUIRED
) oder nicht (#IMPLIED
) oder einen festen Wert enthält (#FIXED
) und welcher Wert als Standardwert benutzt wird, falls das Attribut bei einem Tag nicht angegeben wird.
Vorgabewerte für Attribute | |
---|---|
#REQUIRED |
Das Attribut muss angegeben werden |
#IMPLIED |
Das Attribut ist optional |
"..." |
Standardwert, falls das Attribut weggelassen wird |
#FIXED "..." |
Das Attribut hat immer einen festen Wert |
Beispiel einer Attribut-Deklaration:
<!ATTLIST img
id ID #IMPLIED
src CDATA #REQUIRED
alt CDATA #REQUIRED
ismap IDREF #IMPLIED
>
Entitäten-Deklarationen (ENTITY)
Eine Entität ist eine benannte Abkürzung für eine Zeichenkette oder ein externes Dokument, die innerhalb der DTD oder des Dokumentes, verwendet werden kann. Eine Entität der Form &Name;
wird dabei durch den deklarierten Inhalt der Entity ersetzt. (Zur allgemeinen Verwendung siehe Entität (Auszeichnungssprache).)
Entitäten bestehen aus Zeichenketten. Diese können selber wieder Entitäten und wohlgeformtes Markup enthalten:
<!ENTITY name "Benedikt">
<!ENTITY papst "&name;, der XVI.">
<!ENTITY wplink "<a href='http://de.wikipedia.org'>Wikipedia</a>">
Entitäten können auch für Inhalt einer Datei definiert werden. Dabei wird ein Public- oder System-Identifier benutzt.
<!ENTITY kapitel1 SYSTEM "kapitel1.xml">
<!ENTITY wichtig PUBLIC "-//privat//WICHTIG//" "wichtig.xml">
Bei externen Entities kann zusätzlich angegeben werden, dass es sich um eine nicht analysierte Entität (NDATA, Nicht-XML/SGML-Daten) handelt. In diesem Fall muss eine Notation angegeben werden (hier "gif").
<!ENTITY bild SYSTEM "../grafiken/bild.gif" NDATA gif>
Notationsdeklarationen (NOTATION)
Notationen sind Hinweise zur Interpretation von externen Daten, die nicht direkt vom Parser verarbeitet werden. Notationen können sich beispielsweise auf ein Dateiformat für Bilder beziehen.
<!NOTATION Datentyp SYSTEM "URL">
<!NOTATION Datentyp PUBLIC "Identifikator">
NMTOKEN
NMTOKEN (name token) ist mit einem Bezeichner verwandt, geht jedoch freizügiger mit den Regeln zur Namensgebung um. So sind bei einem NMTOKEN Bezeichner mit führender Ziffer oder führendem Punkt erlaubt, wohingegen bei einem Bezeichner nur Buchstaben, Ideogramme und underlines an erster Stelle erlaubt sind. Somit ist jeder Bezeichner auch ein NMTOKEN, jedoch nicht umgekehrt.
Beispiele für NMTOKEN:
12alpha
.crc
Deklarations-Beispiel:
<!ATTLIST birthdate
year NMTOKEN #REQUIRED
>
Parameter-Entität
Parameter-Entitäten enthalten eine benannte Zeichenkette, die mittels %Name;
an fast allen Stellen innerhalb einer DTD eingesetzt werden kann. Auf diese Weise lassen sich beispielsweise externe Dateien in eine DTD einbinden und mehrfach vorkommende Bestandteile abkürzen. Parameter-Entitäten werden wie normale Entities deklariert, wobei vor dem Elementnamen ein einzelnes Prozentzeichen steht. Beispiel:
<!ENTITY % datei SYSTEM "andere-datei.ent">
%datei;
<!ENTITY % foo.inhalt "(bar|doz)*">
<!ELEMENT foo %foo.inhalt;>
Bedingte Abschnitte
Ein bedingter Abschnitt ist ein Konstrukt, um Deklarationen ein- oder auszuschalten. Beispiel:
<![INCLUDE[
<!ENTITY hallo "welt">
]]>
Schaltet die Deklaration von hallo
ein. Entsprechend gilt:
<![IGNORE[
<!ENTITY hallo "welt">
]]>
um hallo
auszuschalten.
Man verwendet bedingte Abschnitte wie oben jedoch nicht allein, sondern meist im Zusammenspiel mit Parameter-Entities:
<!ENTITY % weiche "INCLUDE">
<![%weiche;[
<!ENTITY hallo "welt">
]]>
Das Parameter-Entity %weiche;
ist durch eine der möglichen Schlüsselwörter INCLUDE
oder IGNORE
belegt. Je nach Belegung wird das Entity hallo
deklariert oder nicht.
Durch diese Art der Schreibweise kann ein bedingter Abschnitt durch Überschreibung von Parameter-Entities angepasst werden.
Beispiel eines kurzen Dokumentes mit Verweis auf eine externe DTD:
<?xml version="1.0"?>
<!DOCTYPE hallo SYSTEM "hallo.dtd">
<hallo>Hallo Welt!</hallo>
In der XML-Deklaration kann im Beispiel auch das Pseudoattribut standalone="no"
angegeben werden (d. h., es wird eine externe DTD benötigt):
<?xml version="1.0" standalone="no"?>
<!DOCTYPE hallo SYSTEM "hallo.dtd">
<hallo>Hallo Welt!</hallo>
Der Inhalt von hallo.dtd
:
<!ELEMENT hallo (#PCDATA)>
Kurzes Dokument mit interner DTD:
<?xml version="1.0"?>
<!DOCTYPE hallo [<!ELEMENT hallo (#PCDATA)>]>
<hallo>Hallo Welt!</hallo>
In der XML-Deklaration kann im Beispiel auch das Pseudoattribut standalone="yes"
angegeben werden (d. h., es wird keine externe DTD benötigt):
<?xml version="1.0" standalone="yes"?>
<!DOCTYPE hallo [<!ELEMENT hallo (#PCDATA)>]>
<hallo>Hallo Welt!</hallo>
Siehe auch
- Document Schema Definition Languages (Spezifikation zur Definition von Dokumentstrukturen, Datentypen und Datenbeziehungen in XML)
Weblinks
- Ausführliche Einführung in DTDs (deutsch)
- Dokumenttyp-Deklaration im SELFHTML-Wiki (deutsch)
- Web-Dokumenttypen W3C (englisch)