"Der Turn-Key moderner Datenplattformen ist die Cloud, mit ihren unzähligen Cloud Native Services."
Data Management bezeichnet die Generierung, Speicherung und Verarbeitung aller Datensätze, die ein Unternehmen erzeugt oder sammelt. Zu diesem Verwaltungsrahmen gehören Datenkonnektoren, Data Warehouses, Systeme für Big Data Management oder Stream Processing, die als operative Instrumente die Verarbeitung von Daten funktional und valide organisieren. Datenmanagement funktioniert nur auf Basis einer soliden Datenstrategie und setzt detailliert um, was dort festgelegt ist.
Mit der Verlagerung von Software-Lösungen in die Cloud ist es möglich geworden, mehrere Anwendungen zu einem Software- oder Solution-Stack zusammenzustellen. Der Modern Data Stack ist ein schichtweise kombiniertes System von automatisierten Services, die Daten sammeln, kombinieren, analysieren und schließlich den Wert von Daten heben. Unser Data Management Consulting deckt die gesamte Bandbreite strategischer und technologischer Ausstattungsanforderungen ab.
Ein Data Warehouse ist ein relationales Datenbanksystem für analytische Abfragen. Innerhalb dieser Datenbank werden mehrere meist heterogene Quellen zusammengeführt. Hier werden alle Daten strukturiert „gelagert“, die jederzeit für die weitere Verarbeitung abgerufen werden können.
Der Data Lake ist die Vorstufe eines Data Warehouse. Es handelt sich um ein Datenlager, das eine riesige Menge von unstrukturierten wie auch strukturierten Daten jeglicher Form aufbewahrt.
Ein Data Lakehouse kombiniert die besten Elemente von Data Lakes und Data Warehouses. Datenstrukturen und Datenverwaltungsfunktionen werden ähnlich wie im Warehouse implementiert, und zwar auf kostengünstigem Speicher, der üblicherweise für Data Lakes verwendet wird.
Hinter dem Kürzel ETL steckt die Abfolge von klassischen Data Pipelines: Extraction – Transform – Load. Rohdaten werden abgerufen, transformiert und dann in Datenbanken eingespeist. Die meisten cloudbasierten Datenbanken folgen aber dem ELT-Ansatz: Extraction – Load – Transform. Dabei werden Datenquellen direkt in das Zielsystem übertragen und erst dort transformiert. Bei besonders großen Datenmengen ist dies von Vorteil, da es die Skalierbarkeit unterstützt und weniger Ressourcen verbraucht.