IoT und Data Science: Herkulesaufgabe Data Management

Daten und Kontext

Kategorien

Artificial Intelligence

Data Management

Tech & Tools

Schlagworte

No items found.

Autor

Tanja Kiellisch

Lesedauer

6 Minuten

“Der Wechsel von der statischen zur dynamischen Datengrundlage ist die wichtigste technologische Herausforderung im Bereich IoT Data Science.”

Data Science im Bereich IoT ist hochdynamisch. Analysten und Analystinnen müssen den Umgang mit neuen Technologien und Vorgehensweisen lernen. Luc Brokelmann (im Bild rechts) und Robin Maasjosthusmann (im Bild links) sind überzeugt, dass Unternehmen diese Herausforderungen durch technologisches Enablement meistern.

taod: Zahlreiche Industrieunternehmen sammeln im Internet der Dinge mit modernsten Technologien bereits massenhaft Daten. Deren Weiterverwertung fällt allerdings schwer. Woran liegt das?

Luc Brokelmann: Im Kontext von IoT Analytics begegnen Unternehmen im Vergleich zum bekannten Business-Intelligence-Umfeld neuen Herausforderungen. Hinsichtlich der Datenmengen, Datenstrukturen und Datenaktualität bedarf es neuer Ansätze, mit denen Analysten und Analystinnen sich auseinandersetzen müssen.

Welche Ansätze sind das?

Luc Brokelmann: Es geht weniger um strukturierte Daten, beispielsweise aus internen ERP-Systemen, die in nächtlichen Durchläufen extrahiert und verarbeitet werden müssen. Vielmehr stellen sich mit IoT-Daten neue Fragen der Verarbeitungs-Performance und Verarbeitungslogik, die zumeist am Anfang von IoT-Projekten anspruchsvoll sind. Stream Processing stellt mit Sicherheit eine der gravierendsten Neuerung im Vergleich zu bisherigen Analytics-Systemen dar. Dahingehend stellen fast alle Anbieter im IoT-Analytics-Umfeld performante No-Code-/Low-Code-Lösungen bereit, wodurch die Einstiegshürden deutlich reduziert werden können.

Wie lösen Unternehmen dieses Problem technologisch?

Luc Brokelmann: Durch den Aufbau einer zentralen IoT Analytics Platform ist es möglich, Verarbeitungsprozesse zu automatisieren, zu steuern und zu monitoren. Dabei sind diese immer seltener an das persönliche Skillset einzelner Mitarbeiter und Mitarbeiterinnen gebunden. Während bei codebasierten ETL-/ELT-Prozessen das Wissen über komplexe Transformationen potenziell ein Risiko im Kontext von Fluktuation und ähnliches darstellt, sind Low-Code/No-Code basierte Analytics-Plattformen wartungsarm und auch langfristig erweiterbar.

Womit sich die Frage nach geeigneten IoT-Technologien im Bereich IoT Platform Development stellt. Worauf sollte hier geachtet werden?

Luc Brokelmann: Eine zentrale Herausforderung ist sicher die skalierbare Integration der IoT-Geräte. Denn eins ist klar: Ohne Geräte gibt es keine Daten. IoT-Daten stellen die zentrale Data Source für IoT Analytics dar. Außerdem ist die Identifikation und Integration weiterer relevanter Datenquellen von hoher Bedeutung, denn IoT-Daten müssen mit weiteren internen und externen Datenquellen angereichert werden, um das volle Analytics-Potenzial auszuschöpfen.

Letztlich spielt bei allen Aspekten von IoT Analytics die Performance eine wichtige Rolle. Geschuldet durch die große heterogene Datenmenge, die in nahezu Echtzeit zur Verfügung steht, muss die Plattform in der Lage sein, diesen Herausforderungen zu begegnen. Dabei sind explizite Anforderungen immer Use Case getrieben zu definieren: Ist Stream Processing in Echtzeit notwendig oder reicht eine Batch-Verarbeitung aus?

Hier zeigen sich Unterschiede zwischen konventioneller Data Science und IoT Data Science.

Robin Maasjosthusmann: Ja, gravierende. Der Wechsel von der eher statischen zur dynamischen Datengrundlage ist sicher die wichtigste technologische Herausforderung im Bereich IoT Data Science. Das bedeutet eine Umstellung in den Arbeitsweisen der Analysten und Analystinnen und erfordert außerdem eine entsprechend angelegte Infrastruktur. Dieses technologische Setting muss nicht nur in der Lage sein, die Daten in nahezu Realtime von den geografisch verteilten Geräten zu sammeln, sondern es musss diese enorm hohen Datenmengen auch in Echtzeit verarbeiten können. Dabei stellt nicht nur die geografische Verteilung der Geräte eine Herausforderung dar, sondern auch die Heterogenität der Geräte. Je nach Use Case kann schnell eine Vielzahl von unterschiedlichen Geräten notwendig sein, um die benötigten Daten zu erhalten.

Benötige ich als Analyst oder Analystin gesondertes Wissen im Bereich IoT Data Science, um wertschöpfend mit all diesen Daten arbeiten zu können?

Robin Maasjosthusmann: Um die beschriebenen Herausforderungen zu lösen, müssen Analysten den Umgang mit neuen Technologien und Vorgehensweisen erlernen. Viele bekannte Algorithmen oder Methoden aus der klassischen Welt der Data Science müssen modifiziert werden, um mit den Echtzeitanforderungen mithalten zu können. Wenn bisher häufig eine zentrale Verarbeitung der Daten stattgefunden hat, zum Beispiel im lokalen Rechenzentrum des Unternehmens, erfordert die Echtzeitverarbeitung von IoT-Daten häufig Edge Computing.

Kannst du das etwas genauer erklären?

Robin Maasjosthusmann: Einfach gesagt sollen die Daten so nah wie möglich am erzeugenden Gerät verarbeitet werden. Hierdurch kann der Zeitverlust beim Transport der Daten zur Analyse minimiert werden, aber das Zusammenführen der Ergebnisse ist komplexer. Auch die Art der Verarbeitung der Daten an sich ändert sich. Wo bisher häufig mit Batch-Daten oder Zeit-Intervallen gearbeitet wurde, wird nun die Verarbeitung von einem Stream an Daten benötigt.

Wie aufwändig oder komplex ist die Auswahl geeigneter Technologien?

Luc Brokelmann: Aufgrund des umfangreichen Angebots der großen Anbieter wie Amazon, Google und Microsoft kann man von der Qual der Wahl sprechen. Der Aufwand besteht am Ende darin zu entscheiden, welcher der Anbieter für den eigenen Use Case spezifisch das beste Paket bietet. Die Entscheidung hängt natürlich von unterschiedlichen Faktoren ab. Eine zentrale Fragestellung ist immer, inwiefern es bereits bestehende Strukturen in den jeweiligen Umgebungen gibt und somit die Integration in die IoT Platform erleichtern würden.

Gibt es typische Fehler, die sowohl beim technischen Setup als auch später in der Analyse vorkommen können?

Robin Maasjosthusmann: Die klassischen Fehler beruhen häufig darauf, dass die Use Cases noch basierend auf den Erfahrungen aus klassischen Data-Science-Projekten geplant werden. Zudem wird teilweise die zugrundeliegende Infrastruktur nicht leistungsstark beziehungsweise skalierbar ausgelegt, oder die notwendige Verarbeitungsgeschwindigkeit inklusive der Transportwege werden nicht beachtet. Vor allem das Thema Edge Computing steht für viele Unternehmen noch im Kontrast zu ihrer bisherigen Arbeitsweise mit wenigen, zentralen Rechenzentren.

Warum macht es häufig Sinn, IoT-Analytics und und Machine Learning zusammen zu betrachten?

Robin Maasjosthusmann: Aufgrund der großen Datenmengen ist Machine Learning häufig der einzig gangbare Weg. Damit diese funktioniert, muss sichergestellt werden, dass sowohl hardware- als auch softwareseitig alle Zahnräder ineinandergreifen.

Kannst du das genauer erklären?

Robin Maasjosthusmann: Typischerweise benötigt ein Machine- Learning-Modell aufbereitete Daten. Das heißt, auf dem Weg vom IoT-Gerät bis zur Analyse muss nicht nur sichergestellt werden, dass möglichst wenig Zeit vergeht, sondern auch, dass die Daten vorbereitet sind. Hierzu zählen Aufgaben wie das Bereinigen, Filtern und Transformieren der Daten. Besonders durch die große Varietät der Datenquellen und somit erhaltenen Datenformate ist es zwingend notwendig, diese Schritte automatisiert im Prozess integriert zu haben.

Ich würde vermuten, das Thema Echtzeitverarbeitung ist hier noch mal besonders spannend.

Robin Maasjosthusmann: Das stimmt, der Echtzeitverarbeitung muss absolut Rechnung getragen werden. Die Anbindung des Models muss in der Lage sein, durchgehend Daten – in durchaus beachtlicher Menge – an das Modell zu übertragen. Die Skalierbarkeit der Anwendung und Infrastruktur ist besonders zu betrachten. Bei IoT sind die Datenmengen nicht nur bereits sehr groß, sondern sie haben auch das Potenzial, sehr schnell und noch umfangreicher zu wachsen.

Was würdet ihr empfehlen: Welches Basis-Setup benötigen Unternehmen, um IoT Data Science optimal vorzubereiten?

Robin Maasjosthusmann: Wichtig ist zunächst ein Verständnis der Daten und ein Einblick darauf, welche Probleme oder Fragestellungen mittels IoT Data Science beantwortet werden sollen.

Luc Brokelmann: Das stimmt. Für IoT-Auswertungen ist der Business-Kontext wichtiger denn je. Die reine Auswertung der Gerätedaten bringt zwar auch schon einen gewissen Mehrwert, jedoch ergibt sich der Business Value erst durch den unternehmensspezifischen Kontext.

Robin Maasjosthusmann: Basierend hierauf können dann die weiteren Schritte angegangen werden. Um ein Verständnis für die Bedeutung der gesammelten Daten zu entwickeln, helfen klassische Business-Intelligence-Systeme oder ein Data Warehouse. Diese lassen sich auch innerhalb der Projekte in die neu geschaffene Cloud-Infrastruktur mit einbinden und managen. Auf der Infrastrukturseite gibt es bis auf das Vorhandensein von IoT-Geräten, die Daten senden, eigentlich keine Voraussetzungen. Dank der diversen Cloud-Anbieter können die benötigten Ressourcen schnell aufgebaut und skaliert werden.

Technologie funktioniert somit elementar als Enabler für kontextbezogene IoT-Analysen. Vielen Dank, Luc und Robin!

‍

Über Luc Brokelman

Luc Brokelman ist IoT Cloud Consultant mit Fokus auf Data Integration & Modeling. Seine detaillierten Kenntnisse in Power BI ermöglichen die ganzheitliche Implementierung der IoT-Plattform, von der Geräteprovisionierung und -steuerung über Streaming-Auswertung bis hin zu umfangreichen Reporting-Dashboards.

Über Robin Maasjoshustmann

Robin Maasjoshustmann war DevOps Engineer mit Fokus auf Microservice-Architekturen und Cloudification. Er gestaltet auf Basis von Azure, Kubernetes und Terraform präzise Infrastrukturen für Projekte der Datenanalyse.

No items found.

Weitere Themen und Beratung rund um Data und Analytics

No items found.

IoT Data Science und Data Management

“Der Wechsel von der statischen zur dynamischen Datengrundlage ist die wichtigste technologische Herausforderung im Bereich IoT Data Science.”

Datenanalyse und Tool-Auswahl

"Verunsicherung sollte kein Argument gegen die Cloud sein!"

Der Weg zum IoT-Produkt