Die All-in-one Datenanalyseplattform auf dem Prüfstand
Im Sommer 2023 kündigte Microsoft-Chef Satya Nadella die SaaS All-in-one Datenanalyseplattform Fabric auf der hauseigenen Messe MS Build als absolute Revolution im Bereich der datengetriebenen Lösungen an. Auf unserem beliebten Event-Format "Data Lounge & Learn" ziehen wir nach einem Jahr intensiver Projekterfahrung ein Fazit. Was funktioniert gut und was noch nicht so? Unser Praxis-Check im Überblick.
Die konkrete Erwartung ist, die gesamte Data Journey an einem Ort performant abzubilden. Diese beginnt bei den Datenquellen, wie zum Beispiel ERP-Systemen, Sensorik-Schnittstellen und Dateien und endet bei der konkreten Nutzung, also der Erzeugung von Mehrwerten wie <a href="https://www.taod.de/services/bi-und-data-analytics-consulting?utm_source=blogartikel&utm_medium=web&utm_content=textlink&utm_campaign=blog"data-webtrackingID="blog_content_link" >Reports, Analysen,</a> Vorhersagen oder <a href="https://www.taod.de/services/artificial-intelligence-consulting?utm_source=blogartikel&utm_medium=web&utm_content=textlink&utm_campaign=blog"data-webtrackingID="blog_content_link" >AI-Produkten</a>. Hierfür wird in der Regel eine komplexe, mehrschichtige Architektur benötigt, um eine zentrale Schicht als „Single Source of Truth“ zu schaffen. Daten müssen gespeichert und in der benötigten Form bereitgestellt werden, was häufig Transformationen (ETL/ELT) erfordert. Diese werden dann orchestriert, was das Festlegen des Zeitpunkts und der Reihenfolge der nächsten Schritte umfasst. Zudem muss die Plattform robust gestaltet werden, einschließlich Error-Handling und Alerting.
All diese Aspekte wollen wir nun unter die Lupe nehmen und nach einem Jahr intensiver Projekterfahrung kritisch betrachten.
Zugänglichkeit/SaaS
Microsoft Fabric als SaaS-Plattform bietet durch die browserbasierte Nutzung einen sehr einfachen Einstieg, bei dem sich Anwendende kaum um Infrastruktur kümmern müssen. Die gesamte Rechenleistung wird zentral über die „Capacity“ bereitgestellt. Dies reduziert den administrativen Aufwand erheblich, da Unternehmen ihre Daten-Workloads flexibel skalieren können. Trotz der übersichtlichen Power BI-ähnlichen Oberfläche kann der Arbeitsbereich durch die vielen integrierten Funktionen etwas komplex wirken. Die gesamte Entwicklung wird durch das AI-Tool Copilot unterstützt.
Komponenten zur Transformation
Datentransformationen können in Fabric codebasiert über Notebooks, mit Spark, Python und weiteren Sprachen, über SQL-Skripte oder Stored Procedures sowie über das Low-Code- beziehungsweise No-Code-Tool Dataflow Gen2 durchgeführt werden.
Fabric Notebooks basieren auf Apache Spark, einer bewährten Technologie zur Verarbeitung großer Datenmengen. Im Hintergrund laufen leistungsstarke Cluster, die In-Memory-Computing und Parallelisierung nutzen. Die Entwicklung erfolgt meist in Python (PySpark), das viele mächtige Funktionen bereitstellt. Neben der direkten Entwicklung im Portal kann auch eine IDE wie VSCode verwendet werden. Notebooks sind ideal für komplexe Datentransformationen, Data Science- und Machine Learning-Aufgaben, Ad-hoc-Analysen sowie Data Crawling. In Verbindung mit dem Lakehouse als Ziel liefern sie besonders gute Ergebnisse, da ihre leistungsstarken Funktionen und die zugrundeliegende Rechenleistung Transformationen jeder Art effizient unterstützen.
SQL-Skripte sind die bevorzugte Option für die Arbeit mit dem Warehouse und bieten vollständige T-SQL-Unterstützung. Die Nutzung ähnelt stark einem SQL-Server, sei er On-Premises oder in der Cloud. Skripte können manuell ausgeführt, als Aktivität in einer Pipeline eingebunden oder als Stored Procedures im Warehouse genutzt werden. Besonders für Entwickler und Entwicklerinnen mit Erfahrung im klassischen Data Warehousing und SQL ist dieses Element sehr empfehlenswert.
Dataflow Gen2 basiert auf den aus Power BI bekannten Dataflows und Power Query und bietet ein visuelles Interface, das Transformationen ohne Code ermöglicht. Im Vergleich zu Dataflows aus Azure Data Factory und Synapse Analytics gibt es jedoch Einschränkungen: Einige Entwicklungsoptionen wie zum Beispiel das Hashing und die Apache Spark-Unterstützung fehlen, was bei komplexeren Transformationen oder großen Datenmengen zu Leistungsproblemen führt. Dataflows eignen sich daher besonders für „Citizen Developer“ in Fachabteilungen ohne Programmierkenntnisse und für weniger komplexe ETL-Pipelines.
Orchestrierung
Pipelines werden in Fabric zur Orchestrierung genutzt und ähneln dem gleichnamigen Baustein in Azure Data Factory und Synapse stark. Dabei funktioniert die Orchestrierung in der Regel problemlos. Pipelines können beispielsweise über Parameter dynamisiert werden und sind ad-hoc, nach Zeitplan oder eventgetrieben auslösbar. Ebenso lassen sich ohne eine Zeile Code und zugleich variabel komplexere Try-Catch-Blocks im Error-Handling und Benachrichtigungen zu Teams oder per Mail einstellen. Insgesamt sind die Pipelines ein praxiserprobter und starker Baustein von Fabric.
Continuous Integration und Continuous Deployment
Die Unterstützung für Continuous Integration (CI) und Continuous Deployment (CD) in Fabric ist derzeit noch ausbaufähig und es fehlen einige wichtige Funktionen, die in anderen DevOps-Tools und -Umgebungen als gängiger Standard gelten. Zwar gibt es grundlegende Möglichkeiten, Entwicklungs- und Produktionsumgebungen zu trennen und Änderungen zu versionieren, doch ist der Prozess bei weitem nicht so flexibel, wie man es sich bei einer modernen Plattform wünschen würde. Dies ist allerdings in der Community und bei Microsoft bekannt und man kann von zeitnahen Verbesserungen ausgehen.
Steuern von Berechtigungen
Im SaaS-Kontext von Fabric ermöglicht das flexible Berechtigungsmodell eine einfache und präzise Steuerung des Datenzugriffs. Arbeitsbereichsrollen wie Admin, Mitwirkender und Zuschauer regeln den Zugriff auf Inhalte innerhalb von Arbeitsbereichen. Elementberechtigungen erlauben es, den Zugriff auf einzelne Elemente unabhängig von den Arbeitsbereichsrollen zu verwalten. Darüber hinaus können Berechtigungen auf Schema, Tabellen- oder Zeilenebene festgelegt werden.
Empfehlung
Nach einem Jahr intensiver Projekterfahrung mit Microsoft Fabric lässt sich festhalten, dass die SaaS-Plattform die gesamte Data Journey effizient abbilden kann. Mit einem leistungsstarken Spektrum an Lösungsbausteinen unterstützt sie die Umsetzung komplexer Architekturen und ermöglicht eine reibungslose Datenverarbeitung von der Quelle bis zur Nutzung. Besonders hervorzuheben ist der Aspekt „Fusion Development“, der eine enge Zusammenarbeit zwischen Entwicklern und Fachabteilungen fördert. Wenn das Unternehmen zudem eine starke Ausrichtung auf Microsoft-Technologien wie Azure, M365 und Power Plattform hat, wird der Einsatz von Fabric besonders vorteilhaft. Aus diesen Gründen empfehlen wir den Einsatz von Fabric.
Weniger empfehlenswert ist Fabric, wenn auf Microservices, Open Source und IaaS beziehungsweise PaaS, On-Premises-Lösungen oder stark auf die Hyperscaler AWS oder GCP gesetzt werden soll.
Fabric ist nicht nur eine wunderbare technologische Lösung, sondern auch ein Katalysator für Innovation und Effizienz in Unternehmen. Wir freuen uns darauf, in den nächsten Jahren weiterhin mit Fabric für unsere Kunden am Ball zu bleiben und dessen Potenzial voll auszuschöpfen.
Dieser Artikel erschien erstmalig in unserem Magazin data! Ausgabe 02/24. <a href="https://www.taod.de/data-magazin?utm_source=blogartikel&utm_medium=web&utm_content=textlink&utm_campaign=data4"data-webtrackingID="blog_content_link" >Jetzt kostenlos bestellen!</a>