Data Warehouse
Was ist ein Data Warehouse?
Als Data Warehouse wird in der Wirtschaftsinformatik eine zentrale Datenbank bezeichnet, in der Daten aus verschiedenen, häufig unterschiedlich aufgebauten und ausgerichteten Quellsystemen gemeinsam abgelegt werden. Abgekürzt wird der Begriff mit DWH oder DH. Die Datenbankarchitektur eines Data Warehouses ist auf große Datenmengen ausgelegt und für Analysezwecke optimiert.
Ein Data Warehouse unterstützt primär das Reporting und die Datenanalyse. Unternehmen setzen ein Data Warehouse als Kernbestandteil der Business Intelligence ein. Sie bauen sich aus den im Unternehmen vorhandenen Daten einen Wettbewerbsvorteil gegenüber Konkurrenten auf, indem sie die in Einzelsystemen isolierten Informationen zusammenführen, verdichten und auswerten.
Aus den Ergebnissen ergeben sich Hinweise auf bisher verdeckte Zusammenhänge und logische Verbindungen. Die ökonomische Bedeutung der mächtigen Speichersysteme kommt in den synonym gebrauchten Bezeichnungen Business Warehouse-System bzw. Business Intelligence-System zum Ausdruck.
Die zentrale Datenbank
Woher die Daten auch kommen, die ein Unternehmen erhält und schließlich verwertet sowie aufbereitet. Sie landen im alle Data Warehouse als zentraler Datenbank.
Entstehung der Idee eines zentralen Speichers
Das Konzept eines zentralen Datenhaushalts entstand in den 1980er Jahren als die beiden IBM-Forscher Barry Devlin und Paul Murphy eine Speicherarchitektur mit dem Ziel entwickelten, ein Modell für den Datenfluss aus den operativen Systemen eines Unternehmens in die Entscheidungsunterstützungssysteme für das Management zu entwerfen. Der Begriff Data Warehouse wurde 1988 von Barry Devlin eingeführt.
Er veröffentlichte den ersten Artikel über die Architektur eines Data Warehouses im IBM Systems Journal. Das Hauptaugenmerk war die Vermeidung einer redundanten Datenhaltung, die mit einer separaten Befüllung von mehreren, unabhängig voneinander arbeitenden Entscheidungsunterstützungssystemen verbunden ist. Selbst wenn die verschiedenen Systeme von unterschiedlichen Nutzergruppen eingesetzt werden, benötigen sie weitgehend die gleiche Datengrundlage. Durch eine zentrale und nur einmalige Speicherung der Daten werden Kosten eingespart und die Fehleranfälligkeit verringert.
Die vier Hauptmerkmale eines Data Warehouse
Im Unterschied zu der Datenhaltung in den operativen Systemen sind die gespeicherten Inhalte in einem Data Warehouse von den vier Merkmalen Beständigkeit, Zeitorientierung, Themenorientierung und Vereinheitlichung gekennzeichnet.
Auf diese Weise entsteht ein in sich konsistenter, homogener Datenpool.
Komponenten eines Data-Warehouse-Systems
Technisch steht hinter einem Data Warehouse ein denormalisiertes relationales Datenbanksystem. Diese Datenbankform ist besonders für schnelle Lesezugriffe auch bei großen Datenvolumen geeignet. Sie ist mit kurzen Antwortzeiten für verschiedene Datenbankanwendungen und einem optimierten Laufzeitverhalten ausgestattet. Als Abfragesprache wird häufig SQL eingesetzt.
Sämtliche zusammengeführten Daten werden im zentralen Data Warehouse abgelegt.
Relationale Datenbank
Da die Datenquellen unterschiedlich sind, arbeiten Data-Warehaouse-Systeme auf Grundlage relationaler Datenbanken, die Abfragesprache ist daher oftmals SQL, die Datenmengen in TeraByte ausgesprochen groß.
Data Access Tools greifen auf die verschiedenen Sichten innerhalb eines Data Warehouses zu und stellen diese für bestimmte Fragestellungen zusammengestellten anwendungs-, personen- oder funktionsbereichsspezifischen Datenextrakte Data Marts zur Verfügung. Data Marts geben die in den einzelnen Sichten abgelegten Informationen weiter. Auswertungsprogramme und Analysetools wie OLAP-Würfel sind mit ihrem jeweiligen Data Mart verbunden. Daneben gehört zu einem kompleten Data Warehouse-System ein Metadaten-Repository, in dem sämtliche Metadaten abgespeichert werden und ein Data Warehouse-Manager, der die gesamten Abläufe im DWH steuert.
Anwendungsbereiche eines Data Warehouses
Unternehmen bauen ein Data Warehouse auf, um eine Gesamtsicht auf alle unternehmensinternen Daten zu gewinnen und sie bei der zukünftigen Unternehmensplanung sowie für strategische Entscheidungen einsetzen zu können. Sämtliche Unternehmensbereiche erhalten individuell auf ihre Bedürfnisse zugeschnittene Abzüge des kompletten Datenhaushalts, die Informationsversorgung verbessert sich unternehmensweit.
Die Verbindung eines analytischen OLAP-Systems mit einem Data Mart des Data Warehouses bietet einen mehrdimensionalen Blick auf den Datenbestand. Dazu werden verschiedenen Dimensionen (wie beispielsweise Produkt, Monat, Verkaufsregion) definiert, die den Anwendern des OLAP-Systems als Auswahlkriterien zur Verfügung stehen. Data-Mining-Verfahren erlauben die systematische, statistische Auswertung umfangreicher Datenbestände. Dadurch können beispielsweise Kennzahlen (KPIs) für verschiedene Unternehmensbereiche aus einem Data Warehouse abgeleitet werden. In der Praxis werden Data-Warehouse-Architekturen auch mit Big-Data-Technologien kombiniert.
Sie haben noch Fragen?