Datensilo
Ein Datensilo (englisch data silo) ist ein Datensystem oder -subsystem als Teil eines Computer-residenten Verwaltungssystems, für das es nicht möglich ist, mit anderen, die verwandt sind oder verwandt sein sollten, einen Datenaustausch stattfinden zu lassen. Eine Hürde kann in diesem Zusammenhang die Vielzahl der verschiedenen existierenden Datenquellen und -formate und die heterogenen Modellierungsweisen gleicher Phänomene – mit dem Ergebnis von häufig nur unzureichend oder gar nicht miteinander austauschbaren digitalen Daten – sein. Daher findet für solche Daten keine Teilhabe durch andere statt; vielmehr bleiben die Daten in jedem System oder Subsystem abgesondert, im metaphorischen Sinne „in einem Behälter eingeschlossen, wie Getreide in einem Silo eingeschlossen ist“: Es kann viel davon geben; und es kann ziemlich hoch gestapelt und innerhalb dieser Grenzen frei verfügbar sein. Doch besitzt es keine Wirkung außerhalb dieser Grenzen.
Nicht selten sind die Daten in Repositories (also in verwalteten Verzeichnissen zur Speicherung und Beschreibung digitaler Objekte für ein digitales Archiv) abgelegt.
Begriffliche Abgrenzungen
Datensilos entstehen immer dann, wenn ein Datensystem inkompatibel oder nicht mit anderen Datensystemen integriert aufeinander abgestimmt ist. Diese Inkompatibilität kann in der technischen Architektur, in der Anwendungsarchitektur oder in der Datenarchitektur eines beliebigen Datensystems auftreten. Da sich jedoch gezeigt hat, dass etablierte Datenmodellierungsmethoden die Ursache des Datenintegrationsproblems sind, sind die meisten Datensysteme zumindest in der Datenarchitekturschicht inkompatibel. In gewissen Fällen kann Datenvirtualisierung durch Erstellung einfassender integrierender virtueller Umgebungen (sogenannter „Ökosysteme“) Abhilfe schaffen.[1] Auf andere Weise behilft man sich im Bereich des Computer Aided Engineering: dort erarbeitet man Metadatenmodelle und Dateiformate für davon abgeleitete interoperable Metadaten und schafft auf diese Weise Datenaustauschmöglichkeiten.[2]
Der Effekt der Bildung von Datensilos kann allerdings auch gewollt sein. Gründe der Informationssicherheit oder Schutz proprietärer Daten können auf die Bildung von Datensilos hingewirkt haben: unter Zuhilfenahme entsprechender Software können Datensilos mühelos technisch erzwungen werden (z. B. wird die Ablage verschlüsselter Dateien auf einem Webserver im Internet für Ottonormalbenutzer ein Datensilo generieren). In solchen Fällen ist ein Datensilo eine erfasste und gespeicherte Ansammlung von Informationen, auf die nur eine klar definierte Gruppe von Nutzern Zugriff hat. Allen anderen Nutzern ist der Zugriff auf diese Informationen nicht möglich. Eine andere sicherheitstechnische Methode kann beispielsweise darin bestehen, ein Repository zum Datensilo zu machen, indem das Verzeichnis, über welches man auf Daten zugreift, nur virtuell durch Referenzierung aufgebaut wird.[3] Man bezeichnet dies als „Virtual Directory“.[3] Der Zugriff auf die Daten kann dann nur in Echtzeit durch Referenzierung erfolgen.[3] Physisch auf einem Dateisystem existiert das Verzeichnis jedoch nicht. Auch soetwas wird dann nur möglich gemacht für zugangsauthorisierte Nutzer.
Datensilos im Kontext von Unternehmen
Im Unternehmenskontext wird von einem Datensilo gesprochen, wenn Daten an verschiedenen Orten in einem Unternehmen gespeichert sind und nur gewisse organisatorische Bereiche auf diese Daten Zugriff haben. Datensilos können in einem Unternehmen aus unterschiedlichen Ursachen heraus entstehen:[4]
Beispiele:
- Daten über Kunden werden in verschiedenen organisatorischen Bereichen des Unternehmens erhoben; und nur der jeweils die Daten erhebende Unternehmensbereich hat Zugriff auf diese Daten.
- Daten werden mit unterschiedlichen Tools erhoben und gespeichert. Je nach Vorgeschichte in der Entwicklung einzelner Unternehmensbereiche können sich diese Tools jedoch als nicht miteinander kompatibel erweisen.
- Es wird nur innerhalb des jeweiligen Toolarbeitsbereichs mit den Daten gearbeitet, jedoch kein Datenexport oder -austausch vorgenommen.
In der Praxis zeigt sich die Existenz von Datensilos sowohl bei etablierten als auch bei jungen Unternehmen.[4] Bei etablierten Unternehmen sind Datensilos häufig aus dem Umstand heraus hervorgegangen, dass der Online-Bereich des Unternehmens sich neben dem Offline-Bereich entwickelt hat und zunächst eigene Lösungen genutzt hat (Insellösungen). Bei jungen Unternehmen sind die Datensilos in vielen Fällen eine Folge des schnellen Wachstums, d. h. die einzelnen Unternehmensbereiche haben schnell eine eigene Lösung gesucht, um zügig handlungsfähig zu sein. Dabei wurde nur der eigene Bereich betrachtet; das Gesamtbild wurde nicht berücksichtigt.[4]
Zur Aufhebung des Nebeneinanderexistierens von Datensilos in Unternehmen erweist sich ein Aufeinanderabgestimmtwerden der zuvor isoliert arbeitenden, Daten-verwaltenden organisatorischen Bereiche in einer ressourceneffizienten Zusammenarbeit in flachen, vernetzten Strukturen, einhergehend mit einer Datenzusammenführung, als schwerlich zu umgehen. Dafür wird „Smart Collaboration“ als methodischer Ansatz erachtet.[5]
Datensilos können sich unter Umständen als Innovatonshürde für jene Unternehmen erweisen, in welchen man beispielsweise von Data Mining Gebrauch machen möchte, um die Daten im geschäftlichen Sinne „produktiv“ nutzen zu können.[6]
Eine Verlagerung der Daten in eine Datenwolke (engl. „Cloud“) kann unter Umständen möglich sein und hängt im Wesentlichen von der aus dem Grad der Vertraulichkeit resultierenden Sensitivität der Daten ab.
Datensilos in der statistischen Datenanalyse
Zur Datensilobildung kann es in der statistischen Datenanalyse kommen, wenn Daten nur unregelmäßig verwendet werden und es durch ungeordnete, isolierte Abspeicherung und Sammlung von statistischen Datensätzen zu heterogenen und unsortierten Datenbeständen kommt. Als Abhilfe werden hier Datenintegration und Ordnungssysteme (wie z. B. SDMX) für die Datensätze unter Zuhilfenahme von Standardisierung erachtet.[7] Der SDMX-Standard (Statistical Data and Metadata Exchange) wird jedoch auch bei Datenintegrationsproblemen über die statistische Datenanalyse hinaus als wirkungsvolles Hilfsmittel angesehen (so wird er etwa für im Businessbereich umfänglich einsetzbar eingeschätzt).[7]
Literatur
- Michael Matzner: Datenvirtualisierung: Bindeglied zwischen verteilten Datensilos zum Aufbau flexibler analytischer Ökosysteme. (= tdwi Wissen) / Christian Kurze (Hrsg.). SIGS Datacom, Troisdorf [2017], OCLC 1083859371.
- Julian Ziegler, Peter Reimann, Florian Keller, Bernhard Mitschang: A metadata model to connect isolated data silos and activities of the CAE domain. In: Advanced Information Systems Engineering: 33rd International Conference, CAiSE 2021, Melbourne, VIC, Australia, June 28 – July 2, 2021, proceedings. (= Lecture Notes in Computer Science; Bd. 12751). / Marcello La Rosa, Shazia Sadiq, Ernest Teniente (eds.). Springer International Publishing, Cham / Switzerland [2021], ISBN 978-3-030-79381-4, S. 213–228.
Weblinks
- Michele Knight: What is a data silo? dataversity.net-Internetportal (Dataversity), 13. Oktober 2021.
Einzelnachweise
- Michael Matzner: Datenvirtualisierung: Bindeglied zwischen verteilten Datensilos zum Aufbau flexibler analytischer Ökosysteme. (= tdwi Wissen) / Christian Kurze (Hrsg.). SIGS Datacom, Troisdorf [2017], OCLC 1083859371.
- Julian Ziegler, Peter Reimann, Florian Keller, Bernhard Mitschang: A metadata model to connect isolated data silos and activities of the CAE domain. In: Advanced Information Systems Engineering: 33rd International Conference, CAiSE 2021, Melbourne, VIC, Australia, June 28 – July 2, 2021, proceedings. (= Lecture Notes in Computer Science; Bd. 12751). / Marcello La Rosa, Shazia Sadiq, Ernest Teniente (eds.). Springer International Publishing, Cham / Switzerland [2021], ISBN 978-3-030-79381-4, S. 213–228.
- Norbert Pohlmann: Cyber-Sicherheit: Das Lehrbuch für Konzepte, Prinzipien, Mechanismen, Architekturen und Eigenschaften von Cyber-Sicherheitssystemen in der Digitalisierung. 2. Aufl., Springer Vieweg, Wiesbaden [2022], ISBN 978-3-658-36242-3, Kap. 6.4.3 „Virtual Directory“: S. 248.
- Jonas Rashedi: Datengetriebenes Marketing: Wie Unternehmen Daten Zur Skalierung Ihres Geschäfts nutzen Können. (=essentials) Springer Gabler, Wiesbaden [2020], ISBN 978-3-658-30841-4, Kap. 2.5 „Wie entstehen Datensilos und wie gehen wir damit um?“: S. 16–19.
- Heidi K. Gardner: Smart collaboration: how professionals and their firms succeed by breaking down silos. Harvard Business Review Press, Boston, Mass. [2016], ISBN 978-1-63369-110-0.
- Tom Alby: Einführung in die Webanalyse. Rheinwerk Verl., Bonn 2019, ISBN 978-3-8362-7236-0, Kap. 18.4 „Customer Journey versus Datensilos“: S. 144.
- Reinhold Stahl, Patricia Staab: Die Vermessung des Datenuniversums: Datenintegration mithilfe des Statistikstandards SDMX. Springer Vieweg, Berlin [2017], ISBN 978-3-662-54737-3, Kap. 1.2 „Unzugängliche Datensilos“: S. 4–5, Kap. 1.4 „Die Verknüpfung gelingt mit einem Ordnungssystem“: S. 6–7, Kap. 8 „Statistik als Treiber erfolgreicher Datenintegration“: S. 51–54.