Tokenbasierte Kompression

Die tokenbasierte Kompression (englisch token-based compression) ist eine Methode, um bei der Datenverarbeitung Speicherplatz zu sparen. Dabei werden die Seiten eines Dokuments als eine Ansammlung aus im Dokument vorkommenden Symbolen (Tokens) repräsentiert. Positionsinformationen geben an, wo die Symbole erscheinen sollen. Jedes Symbol ist hierbei eine Abbildung eines Teils des Dokuments, etwa ein Buchstabe, ein Wort oder eine Grafik.

Mehrfache Vorkommen desselben Zeichens im Dokument werden repräsentiert, indem die Abbildung des Zeichens nur einmal verwendet wird. Jede Seite des Dokuments spezifiziert, welches Symbol auf ihr vorkommt und legt dessen Position fest.

Häufig wiederkehrende Schlüsselwörter werden durch Abkürzungen, Tokens, ersetzt.

Die Kompressionsraten bei diesem Verfahren sind recht hoch, wenn der zu kodierende Text viele Wiederholungen enthält. Bei Eingaben mit wenigen oder gar keinen Wiederholungen ist die tokenbasierte Kompression ungeeignet.

Ausgangstext: Print "Hallo"; Print "Hier"
  Kodiertext: 3F "Hallo"; 3F "Hier"

Siehe auch

Tokenisierung

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.