Canterbury Corpus
Der Canterbury Corpus ist eine Sammlung von Dateien, um die Leistung und den Kompressionsgrad verschiedener Kompressionsverfahren der verlustfreien Datenkompression zu messen. Er wurde 1997 von der University of Canterbury entwickelt und soll den 1980 entwickelten Calgary Corpus ablösen.
Zweck
Der Canterbury Corpus wurde als Grundlage zur Anwendung von Metriken auf neu entwickelte Datenkompressionsverfahren entwickelt und dient in erster Linie zur Erstellung von Testfällen zum Testen der Algorithmen während des Entwicklungszyklus. Obwohl er prinzipiell auch zum Vergleich verschiedener Kompressionsverfahren eingesetzt werden kann, distanzieren sich die Autoren hiervon ausdrücklich und verweisen auf ähnliche Sammlungen und Hilfsmittel[1]. Darüber hinaus ist der Canterbury Corpus ausschließlich für den Test verlustfreier Kompressionsverfahren vorgesehen.
Pakete
Der Canterbury Corpus besteht aus verschiedenen Paketen, die je nach Testzweck und Algorithmus teilweise stark spezialisierte Daten enthalten. So bietet das Paket The Canterbury Corpus elf Dateien in Text- und Binärformaten, u. a. einen Auszug aus einem Werk William Shakespeares und dient in erster Linie dem Vergleich des zu testenden Algorithmus mit bereits bestehenden anderen Kompressionsmethoden. Die Pakete Artificial, Large und Miscellaneous bieten Dateien mit synthetisch generierten Inhalten, besonders großen Dateien (z. B. dem vollständigen Inhalt des CIA World Fact Book) oder rein numerischen Inhalten. Diese Pakete dienen zum Testen eines Kompressionsverfahrens in besonderen Situationen.