Highspeed Dataflow im Modern Data Stack

Blog / Highspeed Dataflow im Modern Data Stack / taod Consulting GmbH

Daten und Kontext

Kategorien
Data Management, Tech & Tools

Schlagworte
Cloud, ELT, Data Pipeline Tools, dbt, Fivetran

Autor
Frederic Bauerfeind

Lesedauer
4 Minuten

Drei gute Gründe für Modern Data Pipelines

 

In einer datengetriebenen Welt ist der Zugriff auf zentrale Datensätze für alle Mitglieder im Unternehmen genauso praktikabel und einfach, wie Mails zu schreiben oder zu drucken. Im geschäftlichen Umfeld ist es heute nicht mehr vertretbar, auf bestimmte Daten Tage oder auch nur Stunden warten zu müssen. Entweder, weil ein IT-zentraler Prozess erst losgetreten werden muss, oder weil zu bestimmten Peaks eine zu hohe Abfragelast die Pipeline „verstopft“. Moderne Data Pipelines haben einige unschlagbare Vorteile. Hier sind unsere Top drei.

 

Nummer 1: Flexibilität der Cloud

Business User benötigen Daten in der Regel on demand. Allerdings stehen an der Tagesordnung meist zeitfressende und manchmal sogar nervenaufreibende Anfragen an die IT. Dabei sind diese nicht selten mit der Befürchtung verbunden, unvollständige oder unpassende Daten zu erhalten. Gleichzeitig sind sie von der Hoffnung getragen, wenigstens nicht allzu lange auf die Daten warten zu müssen. Denn die bestehende IT-Infrastruktur ist nicht unbedingt auf dezidierte Datenabfragen vorbereitet.

Die Qualität einer Data Pipeline hängt von ihrer Flexibilität ab. Traditionelle Pipelines laufen on premise und nutzen teure wie aufwändig zu wartende Hardware. Hinzu kommt ihre eingeschränkte Nutzbarkeit durch eine träge Performance. Sind mehrere Workloads parallel aktiv, laufen die Datenflüsse träge und konkurrieren miteinander. Zu Peak-Zeiten ist dies ein absolutes Horror-Szenario und die Abfrage von Realtime-Daten bestenfalls ein El Dorado für Datenträumer.

Modern Data Pipelines bedienen sich aktueller Cloud-Technologien, sind also skalierbar, agil und dynamisch. Sie reagieren sofort auf zu- oder abnehmende Workloads und beantworten Abfragen zu spezifizierten Datasets unverzüglich zum Zeitpunkt ihrer Anfrage. Business User sind durch cloudbasierte Data Pipelines in der Lage, selbstbestimmte und zeitnahe Datenanalysen vorzunehmen. Natürlich bringt all dies zudem kostensenkende Aspekte mit sich.

Traditional Data Pipeline vs. Modern Data Pipeline

Eine Data Pipeline ist ein automatisierter Vorgang, um Daten von einem System in ein anderes zu überführen. Sie ist essenziell für schnelle und wertschöpfende datenbasierte Arbeit.

Traditionelle Data Pipelines sind nicht flexibel und schwer anpassbar. Sie bewegen Daten zwar zwischen den Zielsystemen hin und her, arbeiten aber an den Bedürfnissen moderner Unternehmen vorbei.

Eine Modern Data Pipeline arbeitet schnell, effizient und transportiert genau die Daten, die akut benötigt werden. Sie passt sich flexibel an die jeweiligen Unternehmensbedürfnisse an.

Nummer 2: Self-Service dank ELT-Tools und Modern Data Pipelines

Bei Belastungsspitzen mal eben schnell ein spezielles Data-Set abfragen? Fehlanzeige. An dieser Stelle verbringen Business User sehr viel Zeit damit, ihre Datenabfrage an die IT-Verantwortlichen weiterzugeben und auf Output zu warten. Die IT wiederum muss die Anfrage erst einmal aufnehmen und in ihr eigenes Anforderungsprofil übersetzen – Missverständnisse sind oft vorprogrammiert.

Allerdings gilt der unverbaute und schnelle Zugang zu Daten-Pipelines für alle und rund um die Uhr als Grundlage für die Datendemokratisierung in einem Unternehmen. Zudem sollten Business User in der Lage sein, sämtliche Datenquellen und Datenformate abfragen zu können. Ganz egal, ob es sich um strukturierte oder noch nicht annähernd transformierte Daten handelt. Besonders ETL-Prozesse setzen nicht nur den Einsatz umfangreicher externer Tools voraus. Es kann auch Monate dauern, bis ein Team aus Analytics Engineers entsprechende Prozesse aufgesetzt hat. Oft müssen Pipelines für spezielle Abfragen sogar neu programmiert werden. Hierdurch werden personelle und zeitliche Ressourcen unnötig lange gebunden.

Vorteil von Modern Data Pipelines ist der Einsatz eines ELT-Tools. Daten werden also extrahiert und in das Zielsystem geladen, meist in einen Data Lake oder ein Warehouse, bevor sie transformiert werden. Mit diesen sofort zugänglichen Rohdaten können Business User anschließend situativ handeln und kontextbezogen schlussfolgern.

 

Nummer 3: Daten in Echtzeit UND im Bündel

Welcher Wetterbericht basiert auf „alten“ Daten? Welche Vertriebsabteilung kann tage- oder wochenlang auf Informationen über ihre Kundschaft warten, um Entscheidungsprozesse voranzutreiben? Mit stark zunehmenden Datenströmen besteht ein wachsender Bedarf nach Realtime-Daten. Besonders das Internet of Things lässt unvorstellbar werden, dass auf erfasste Daten nur zeitverzögerte Reaktionen erfolgen sollen. Wartezeiten von Stunden oder gar Tagen sind inakzeptabel. Denn die Daten müssen sofort weitergeleitet und verarbeitet werden.

Das sogenannte Near Realtime Processing gehört zu den Standardaufgaben von Modern Data Pipelines. Die Daten werden vollumfänglich und live von einem System in das andere transferiert. Die Echtzeitanalyse liefert dynamische Reportings, deren Daten selten älter als eine Minute sind.

Modern Data Pipelines sind natürlich zusätzlich in der Lage, angesammelte Daten gemeinsam im Stapel zu verarbeiten. Batch Processing ergibt nach wie vor für Reportings Sinn, die beispielsweise einmal täglich oder wöchentlich abgefragt werden. Besonders komplexe Datenabfragen werden mit der Stapelabfrage sehr gut gehandhabt. In datengetriebenen Unternehmen werden sicher beide Varianten gefragt sein und umgesetzt werden.

 

Wettbewerbsvorteil Modern Data Pipelines

Durch die derzeitige massive Umstellung der Unternehmen auf cloudbasierte Technologien, ist der Einsatz von Modern Data Pipelines zunächst die logische Konsequenz. Selbst Unternehmen, die überwiegend mit stapelverarbeitenden ETL-Prozessen arbeiten, werden auf Dauer nicht an ELT-basierten Analysen vorbeikommen. Innerhalb eines Modern Data Stacks können sie moderne Pipelines inkrementell implementieren, erst einmal bestimmte Daten- oder Geschäftsfelder involvieren und sich dem Thema so Stück für Stück annähern.

Klar ist: Modern Data Pipelines bieten einen klaren Wettbewerbsvorteil, denn Entscheidungen lassen sich mit ihnen schneller und besser treffen. Unternehmen können sofort handeln und entsprechende Optionen ergreifen. Bei der Erneuerung von Pipelines ist darauf zu achten, dass diese eine kontinuierliche Datenverarbeitung zulassen. Weiterhin müssen sie dynamisch und flexibel sein sowie unabhängig von anderen Tools, Pipelines oder technischen Prozessen verwendet werden können. Optimal ist ein direkter Zugang zu Daten und Pipelines, die zudem einfach zu konfigurieren sein sollten. Mit komfortablen Anwendungen wie zum Beispiel Fivetran oder dbt nehmen Unternehmen ordentlich Fahrt auf. Denn diese Tools ermöglichen und erleichtern die Arbeit mit Data Pipelines um ein Vielfaches.

Kontakt aufnehmen
UP
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram