Data Warehouse

Was ist ein Data Warehouse?

Als Data Warehouse wird in der Wirtschaftsinformatik eine zentrale Datenbank bezeichnet, in der Daten aus verschiedenen, häufig unterschiedlich aufgebauten und ausgerichteten Quellsystemen gemeinsam abgelegt werden. Abgekürzt wird der Begriff mit DWH oder DH. Die Datenbankarchitektur eines Data Warehouses ist auf große Datenmengen ausgelegt und für Analysezwecke optimiert.

Ein Data Warehouse unterstützt primär das Reporting und die Datenanalyse. Unternehmen setzen ein Data Warehouse als Kernbestandteil der Business Intelligence ein. Sie bauen sich aus den im Unternehmen vorhandenen Daten einen Wettbewerbsvorteil gegenüber Konkurrenten auf, indem sie die in Einzelsystemen isolierten Informationen zusammenführen, verdichten und auswerten. Aus den Ergebnissen ergeben sich Hinweise auf bisher verdeckte Zusammenhänge und logische Verbindungen. Die ökonomische Bedeutung der mächtigen Speichersysteme kommt in den synonym gebrauchten Bezeichnungen Business Warehouse-System bzw. Business Intelligence-System zum Ausdruck.

Entstehung der Idee eines zentralen Speichers

Das Konzept eines zentralen Datenhaushalts entstand in den 1980er Jahren als die beiden IBM-Forscher Barry Devlin und Paul Murphy eine Speicherarchitektur mit dem Ziel entwickelten, ein Modell für den Datenfluss aus den operativen Systemen eines Unternehmens in die Entscheidungsunterstützungssysteme für das Management zu entwerfen. Der Begriff Data Warehouse wurde 1988 von Barry Devlin eingeführt. Er veröffentlichte den ersten Artikel über die Architektur eines Data Warehouses im IBM Systems Journal. Das Hauptaugenmerk war die Vermeidung einer redundanten Datenhaltung, die mit einer separaten Befüllung von mehreren, unabhängig voneinander arbeitenden Entscheidungsunterstützungssystemen verbunden ist. Selbst wenn die verschiedenen Systeme von unterschiedlichen Nutzergruppen eingesetzt werden, benötigen sie weitgehend die gleiche Datengrundlage. Durch eine zentrale und nur einmalige Speicherung der Daten werden Kosten eingespart und die Fehleranfälligkeit verringert.

Die vier Hauptmerkmale eines Data Warehouse

Im Unterschied zu der Datenhaltung in den operativen Systemen sind die gespeicherten Inhalte in einem Data Warehouse von den vier Merkmalen Beständigkeit, Zeitorientierung, Themenorientierung und Vereinheitlichung gekennzeichnet.

1. Beständigkeit

Um die Daten über lange Zeitreihen hinweg auswerten und Entwicklungen langfristig beobachten zu können, werden in einem Data Warehouse Informationen für große Zeiträume gespeichert. Daraus ergeben sich hohe Anforderungen an die Speichertechnik. Nur effiziente Verfahren ermöglichen, Abfragen auf den immensen Datenbestand in akzeptablen Zugriffszeiten auszuführen. Optimierte Speichertechnologien sind umso wichtiger, da eine Löschung von einmal gespeicherten Daten in einer DWH-Umgebung nicht vorgesehen ist. In operativen Systemen werden Daten nur so lange vorgehalten, wie sie tatsächlich benötigt werden. Anschließend werden sie in Archivsysteme ausgelagert, wodurch im Produktivsystem wieder Kapazität freigegeben wird.

2. Zeitorientierung

Jeder in einem DWH abgespeicherte Datensatz wird mit einem zeitlichen Bezugsfaktor verknüpft. Bestandsdaten werden mit einer Datumsangabe versehen. So werden beispielsweise sämtliche Datensätze eines Kundenbestands beim Import in ein DWH um den jeweiligen Stichtag des Datenabzugs (Monatsultimo, Quartalserster, …) ergänzt. Bewegungsdaten werden zusammen mit dem Zeitraum abgespeichert, auf den sie sich beziehen. Absatzzahlen erhalten z. B. einen Zusatz, in welcher Kalenderwoche oder in welchem Monat sie erzielt wurden. Die Inhalte in einem Data Warehouse entsprechen nicht zwingend den aktuellsten Daten in den operativen Systemen. Wie aktuell der DWH-Bestand ist, hängt von der Häufigkeit des Datenimports ab. Die zeitlichen Intervalle, in denen ein DWH befüllt wird, orientieren sich an der angestrebten Nutzung des Data Warehouses (Tages-, Wochen- oder Monatsauswertungen). Alternativ kann ein DWH direkt an die Produktivsysteme angebunden werden, wodurch auch im zentralen Speicher ein Echtzeit-Datenbestand vorgehalten wird.

3. Themenorientierung

Während operative Systeme darauf ausgelegt sind, die in einem Unternehmen ablaufenden Prozesse bestmöglich zu unterstützen, liegt der Schwerpunkt eines Data Warehouses auf inhaltlichen Themen. Es steht also nicht ein einzelner Produktionsauftrag, sondern vielmehr das gesamte Produkt im Fokus. Analog dient ein DHW nicht dazu, einen spezifischen Kundenstammdatensatz zu pflegen, sondern den gesamten Kundenbestand zu betrachten.

4. Vereinheitlichung

Beim Übertrag der Daten aus den Produktivsystemen in den zentralen DWH-Speicher werden sämtliche Einzeldaten in Datenformate überführt, die vom Betriebssystem des DWHs gelesen werden können. In dieser sogenannten Data Staging Area werden die Daten für die Zusammenführung und Verdichtung im Data Warehouse nach standardisierten Normen bereinigt, modifiziert, konsolidiert und aggregiert, unabhängig davon, wie heterogen die Daten in den Quellsystemen vorliegen. Die Vereinheitlichung bezieht sich auf Datentypen, Codierung und Metadaten.

Auf diese Weise entsteht ein in sich konsistenter, homogener Datenpool.

Komponenten eines Data Warehouse-Systems

Technisch steht hinter einem Data Warehouse ein denormalisiertes relationales Datenbanksystem. Diese Datenbankform ist besonders für schnelle Lesezugriffe auch bei großen Datenvolumen geeignet. Sie ist mit kurzen Antwortzeiten für verschiedene Datenbankanwendungen und einem optimierten Laufzeitverhalten ausgestattet. Als Abfragesprache wird häufig SQL eingesetzt.
Sämtliche zusammengeführten Daten werden im zentralen Data Warehouse abgelegt. Dadurch entstehen häufig Datenmengen von mehreren Terabyte. Um für die Anwender dennoch schnelle und flexible Analysemöglichkeiten vorzuhalten, werden die gesamten Daten in verschiedene logische Sichten unterteilt. Diese physisch jedoch nicht getrennten Sichten werden entsprechend dem Bedarf der zugreifenden Anwendung aufgebaut. Data Access Tools greifen auf die verschiedenen Sichten innerhalb eines Data Warehouses zu und stellen diese für bestimmte Fragestellungen zusammengestellten anwendungs-, personen- oder funktionsbereichsspezifischen Datenextrakte Data Marts zur Verfügung. Data Marts geben die in den einzelnen Sichten abgelegten Informationen weiter. Auswertungsprogramme und Analysetools wie OLAP-Würfel sind mit ihrem jeweiligen Data Mart verbunden. Daneben gehört zu einem kompleten Data Warehouse-System ein Metadaten-Repository, in dem sämtliche Metadaten abgespeichert werden und ein Data Warehouse-Manager, der die gesamten Abläufe im DWH steuert.

Anwendungsbereiche eines Data Warehouses

Unternehmen bauen ein Data Warehouse auf, um eine Gesamtsicht auf alle unternehmensinternen Daten zu gewinnen und sie bei der zukünftigen Unternehmensplanung sowie für strategische Entscheidungen einsetzen zu können. Sämtliche Unternehmensbereiche erhalten individuell auf ihre Bedürfnisse zugeschnittene Abzüge des kompletten Datenhaushalts, die Informationsversorgung verbessert sich unternehmensweit. Die Verbindung eines analytischen OLAP-Systems mit einem Data Mart des Data Warehouses bietet einen mehrdimensionalen Blick auf den Datenbestand. Dazu werden verschiedenen Dimensionen (wie beispielsweise Produkt, Monat, Verkaufsregion) definiert, die den Anwendern des OLAP-Systems als Auswahlkriterien zur Verfügung stehen. Data Mining-Verfahren erlauben die systematische, statistische Auswertung umfangreicher Datenbestände. Dadurch können beispielsweise Kennzahlen (KPIs) für verschiedene Unternehmensbereiche aus einem Data Warehouse abgeleitet werden.In der Praxis werden Data Warehouse-Architekturen auch mit Big DataTechnologien kombiniert.


Sie haben noch Fragen?

Kontaktieren Sie uns

Kostenlose SEO Analyse


Weitere Inhalte