Aufbau eines Modern Data Stack

Blog / In fünf Schritten zum Modern Data Stack / taod Consulting GmbH

Daten und Kontext

Kategorien
Data Management, Tech & Tools

Schlagworte
Cloud, Snowflake, Fivetran, dbt, Tableau, Power BI

Autorin
Rebecca Schmidt

Lesedauer
5 Minuten

In fünf Schritten zum modernen Technologie-Setting

 

Manch ein Unternehmen plant sein zur Datenanalyse notwendiges technologisches Umfeld auf der sogenannten grünen Wiese. Diese Redewendung steht als Sinnbild für ein Konzept, das sich ohne Beachtung großer Rahmenbedingungen umsetzen lässt. Einerseits klingt das nach Freiheit und unendlichen Möglichkeiten. Andererseits stellt es für Unternehmen, die im Bereich Datenanalyse und einer umfänglichen Cloud-Architektur eher Newcomer sind, oft ein großes Dilemma dar: Sie wollen ihre Daten schnell gewinnbringend nutzen. Aber wie, so ganz ohne oder wenig adäquater Infrastruktur? Immerhin gehört eine hochwertige Datenanalyse zu einem der wichtigsten Wachstumsfaktoren für Unternehmen. Diese benötigt aber eine sorgfältig geplante und vor allem verlässliche Architektur. Wo also anfangen?

 

Modern Data Stack: Alles kann, manches muss

Die unkomplizierte wie wichtige Lösung für dieses Dilemma ist der Modern Data Stack. Ein vielschichtiges System an Tools in der Cloud, die Daten in drei Phasen verarbeiten:

  • die zentrale Speicherung und Basis in einem Warehouse,

  • die Anbindung der Rohdaten,

  • und die Analyse der transformierten Daten.

Diese Data Tools sind zeitsparend und kosteneffektiv. Außerdem kann eine solch benötigte Infrastruktur mit wenig technologischem Vorwissen aufgebaut werden.

 

Tool-Time: Orientierung im Tech-Stack

Vorweg soll eines erwähnt sein: Inzwischen gibt es eine Vielzahl unterschiedlichster Tools, die viele verschiedene Bedürfnisse abdecken. Da die Technologien innerhalb des Stacks entscheidend für den Erfolg aller Data Management Maßnahmen sind, müssen sie sorgfältig, differenziert und individuell gewählt werden. Es gibt zudem nicht die eine Technologie, die für alle geplanten Aktivitäten geeignet ist. Jedes Unternehmen benötigt einen eigenen Data-Stack, der immer wieder auf aktuelle Bedürfnisse angepasst werden kann. Deshalb ist es schwierig, an dieser Stelle allgemeingültige Technologien zu nennen oder gar zu empfehlen, die sämtliche Erfordernisse jeglicher Unternehmen erfüllen.

Die nachfolgenden Empfehlungen umfassen daher Tools, die sich in den letzten Jahren erfolgreich bewiesen haben und auf höchst innovative Weise eben viele solcher technologischen Notwendigkeiten abnehmen. Auch taod greift auf viele Erfahrungen zurück und wir haben ein gutes Gefühl dafür entwickelt, welche Tools innerhalb eines Modern Data Stack zumindest einmal in Erwägung gezogen werden sollten. Deshalb wird in diesem Artikel ergänzend zum jeweiligen strategischen Schritt eine Basis-Technologie empfohlen, die in vielen Fällen sinnvoll eingesetzt werden kann – und von der jedes Unternehmen auf jeden Fall schon einmal gehört haben sollte. Hier unser Modern Data Stack Wegweiser in fünf Schritten:

 

Modern Data Stack Schritt 1: Cloud Data Warehouse

Klar: Etwaige Rohdaten müssen zentral abgelegt und gespeichert werden, bevor sie weiterverarbeitet werden können. Empfehlenswert ist ein Cloud Data Warehouse, das automatisch skaliert, um flexibel auf große Datenvorkommen reagieren zu können. Kommen neue Datenquellen hinzu, werden diese dort einfach eingespeist, gespeichert und verarbeitet.

Unsere Tool-Empfehlung: Snowflake. Die Implementierung des Warehouse ist sehr einfach und mit wenig, beziehungsweise gar keinem Engineer-Aufwand verbunden. Das Cloud Tool ist ein Spitzenreiter bezogen auf die Skalierung des Storages. Eine sekundengenaue, verbrauchsabhängige Preissetzung garantiert, dass tatsächlich nur für die benötigte Leistung gezahlt wird.

 

Modern Data Stack Schritt 2: Anbindung durch Konnektoren

Steht fest, auf welcher Plattform alle Daten gesammelt werden sollen, muss die Anbindung gesichert werden. Klassische Data Stacks haben früher die Programmierung durch Analytics Engineers benötigt. Diese mussten komplexe Codes schreiben, die die Datenquellen an das Warehouse angebunden haben. Inzwischen gibt es viele Tools, die mit automatisierten Konnektoren diese Arbeit übernehmen. So sind alle Mitglieder eines Data Teams in der Lage, ohne großen Zeitaufwand oder hohe Kosten mit wenigen Handgriffen Quellen hinzufügen.

Unsere Tool-Empfehlung: Fivetran. Das automatisierte Datenintegrations-Tool, das auf einer vollständig verwalteten ELT-Architektur basiert, bietet wartungsfreie Pipelines und abfragefertige Schemata. Über 200 Konnektoren stehen bereit, um beispielsweise Analytics-, CRM- oder Marketing-Daten verbinden zu können.

ETL vs. ETL

Hinter dem Kürzel ETL steckt die Abfolge von klassischen Data Pipelines: Extraction – Transform – Load. Rohdaten werden abgerufen, transformiert und dann in Datenbanken eingespeist. Die meisten Cloud-basierten Datenbanken folgen aber dem ELT-Ansatz: Extraction – Load – Transform. Dabei werden Datenquellen direkt in das Zielsystem übertragen und erst dort transformiert. Bei besonders großen Datenmengen ist dies von Vorteil, da es die Skalierbarkeit unterstützt und weniger Ressourcen verbraucht.

Modern Data Stack Schritt 3: Business Intelligence

Die Daten aus dem Warehouse können nun bereits genutzt werden. Mit einem Business Intelligence Tool können Unternehmen ihre Daten analysieren und anschließend mithilfe von Dashboards visualisieren. Wichtig ist die Zugriffsmöglichkeit für alle Mitarbeitenden im Unternehmen. Datenbasierte Entscheidungen müssen für alle möglich sein. Die angestrebte Self-Service-Mentalität im Unternehmen wird durch entsprechende BI-Tools massiv unterstützt.

Unsere Tool-Empfehlung: Tableau oder Power BI. In unserem Projektalltag haben sich beide BI-Tools hervorragend für Visualisierungen bewährt. Tableau spielt seine Stärke insbesondere in Kartenansichten aus. Power BI lässt sich entspannt in Microsoft-Umgebungen einbetten.

 

Modern Data Stack Schritt 4: Datentransformation

Theoretisch wäre ein erster Data Stack bereits mit Ausführung der ersten drei Schritte funktionstüchtig. Praktisch bedarf es noch der Datentransformation. Sie ist notwendig, weil Rohdaten in der Regel noch nicht für das Reporting geeignet sind. Rohdaten enthalten oft irrelevante Daten, zum Beispiel Duplikate, Testdatensätze oder Metadaten, die nur für das ursprüngliche Produktionssystem von Bedeutung sind.

Unsere Tool-Empfehlung: dbt. Data Building Tool, kurz dbt, ist ein Commandline Tool, welches die Daten durch einfache SQL-Befehle transformiert. Die Anwendung ist intuitiv zu bedienen, um auch Nicht-Engineers eine zügige Einarbeitung zu ermöglichen.

 

Modern Data Stack Schritt 5: Data Science

Data Science beschreibt Maßnahmen, die weiterführende Erkenntnisse aus den Daten ableiten und damit beispielsweise Empfehlungen oder unternehmerische Einschätzungen für die Zukunft geben. Dafür kommen Methoden und Wissen aus den Bereichen Mathematik, Statistik, Stochastik und Informatik sowie Branchenwissen zum Einsatz.

Damit ist Data Science die Königsdisziplin für Unternehmen. Dieses Vorhaben kann jedoch nur dann gelingen, wenn die vorherigen Schritte sorgfältig berücksichtigt wurden und der Technologie-Stack solide funktioniert. Dies sollten Unternehmen unbedingt immer bei all ihren Data-Projekten im Hinterkopf behalten.

 

Fazit: Immer in Bewegung bleiben

Diese fünf Schritte führen von der eingangs erwähnten grünen Wiese hin zu einem offenen und anpassungsfähigen Modern Data Stack. Die vielfältigen Lösungsansätze und der damit verbundene latente, auf die umfangreichen Möglichkeiten im Bereich Data Management bezogene Entscheidungsdruck, vermindert der Stack jedoch nur teilweise.

In einer sich ständig wandelnden, technologisch geprägten Entscheidungswelt mag ein Tool heute die perfekte Wahl sein. Es kann sich aber bereits morgen oder übermorgen als schon nicht mehr ausreichend wertschöpfend erweisen. Die gute Nachricht beschreibt den unersetzbaren Vorteil des Modern Data Stack: Alle Tools können bei Bedarf zügig ausgetauscht werden. Falls der Bedarf an neuen Technologien festgestellt wird, werden sie zügig und flexibel integriert.

Der Modern Data Stack löst unzählige technologische Herausforderungen auf einen Schlag, indem er verschiedene Bausteine des Data Managements immer wieder neu kombiniert und miteinander verzahnt. Welche Erkenntnisse und Ergebnisse auf der grünen Wiese letztlich wachsen, wird immer damit zusammenhängen, welche Elemente wo platziert werden und wie Unternehmen sie für sich nutzen.

UP
Kontakt aufnehmen
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram