Vorsicht, Sumpf: Wie Data Lakes zur soliden Datenbasis werden

Wer Digitalisierung ernst meint und KI auf breiter Basis nutzen will, braucht hochwertige und konsistente Datenbestände. Hier drängen sich seit Jahren Data Lakes auf. Richtig, sagt Yannick Pfeiffer, aber es lauern reichlich Untiefen unter der attraktiven Oberfläche.

Yannick Pfeiffer - Interview Data Lakes

Yannick Pfeiffer

Interview mit Yannick Pfeiffer, microfin

 

Über Data Lakes spricht die IT schon seit einigen Jahren. Sind sie kurzlebiger Trend geblieben oder eine etablierte Ergänzung zum herkömmlichen Data Warehouse?

Yannick Pfeiffer: Eigentlich sind sie aktueller denn je. Spätestens seit dem Rückenwind von ChatGPT wollen Unternehmen im großen Stil KI nutzen – und müssen sich dann eingestehen, dass die Datenbasis dafür nicht gegeben ist. Dabei sind reichlich Daten vorhanden. Sie sind nur nicht in einer Form verfügbar, die eine effektive Analyse zulässt. Hier liegt der große Vorteil von Data Lakes: Im Gegensatz zu traditionellen, hoch strukturierten Datenlösungen, also Data Warehouses, ermöglichen sie die Speicherung einer breiten Palette von Datenarten, einschließlich unstrukturierter Daten wie Text, Bilder und Videos im Originalformat, und das alles auf einer Plattform. So gesehen können Data Lakes jetzt als "KI-Enabler" eine ihrer größten Stärken ausspielen. Die Vielzahl an Daten erklärt aber auch, warum manche Data-Lake-Projekte in den letzten Jahren "versumpft" sind und sich die Erkenntnis durchsetzt, dass auch ein Data Lake nach einer blitzsauberen Strategie und Konzeption verlangt.

In der Unternehmensrealität sind Data Lakes also noch nicht wirklich angekommen?

Pfeiffer: Natürlich gibt es schon erfolgreiche Projekte. Faktisch liegen in den meisten Unternehmen aber immer noch wesentliche Teile der erzeugten Daten brach, weil sie unzugänglich, da nicht zentral konsolidiert, oder nutzlos aufgrund mangelnder Datenqualität sind. Die nach wie vor vorherrschenden traditionellen Datenmanagementsysteme sind oft nicht in der Lage, mit der Menge und Vielfalt der heutigen Daten umzugehen. Dazu ist die Verwaltung solcher Datenmengen teuer und zeitaufwendig.
Dann sind da noch die allgegenwärtigen Datensilos. Aus Gesprächen mit Kunden wissen wir, dass dieses Problem kaum kleiner geworden ist, weil die Datenflut einen immer größer werdenden Strauß an verschiedenen Daten-Tools und -speicherorten nach sich zieht. Die dezentrale Datenhaltung macht eine Analyse des gesamten Datenbestandes schwierig bis unmöglich. Hier ist ein Neustart oft unumgänglich. Für die fällige initiale Konsolidierung und Homogenisierung der Datenlandschaft sowie die Orchestrierung der unterschiedlichen Tools ist ein Data Lake durch seine Flexibilität und Skalierbarkeit sehr gut geeignet.

Schafft ein Data Lake nicht neue Probleme in Bezug auf Data Governance?

Pfeiffer: Ja, es entstehen neue Herausforderungen – aber sie sind perspektivisch viel besser in den Griff zu bekommen als die bisherigen. Die Übersetzung von Anforderungen aus Datenschutz, Regulatorik und BSI-Vorgaben in konkrete technische und organisatorische Maßnahmen bringt viele Unternehmen heute an ihre Grenzen. Ein konsistentes und übergreifendes Data-Governance-Modell ist deshalb mittelfristig Pflicht. Beispiele hierfür sind ein sinnvolles Zugriffs- und Freigabekonzept sowie die Anonymisierung und Pseudonymisierung von Daten, ohne die Fähigkeit zur Mustererkennung zu verlieren. Bei dezentralen Datensilos und -Tools ist das sehr schwierig, bei einem Data Lake deutlich einfacher konsequent zu realisieren.

Wie gehen Sie bei der Implementierung eines Data Lake vor?

Pfeiffer: Um ein Zielbild einer konkreten Data-Lake-Architektur in der passenden Cloud inklusive Kostenprognose zu ermitteln, führen wir Interviews mit einem ausgewählten Fachbereichsvertreter, einem IT-Architekten sowie dem zuständigen Datenschützer. Unser Ziel ist es, einen (ersten) Data Lake in der Cloud zu implementieren, der dem Kunden sofort einen hohen geschäftlichen Nutzen bringt und mit seinen bestehenden Systemen kompatibel sowie Compliance-konform ist.

Das dauert, naturgemäß. Was macht ein Unternehmen, wenn es schneller gehen muss?

Pfeiffer: Zwei Wochen bis zum funktionsfähigen Data Lake sind machbar. Das klingt sehr optimistisch, funktioniert aber dank eines vordefinierten Verfahrens. Dabei wird das Unternehmen nicht nur bei der Auswahl der Technologie und des Anbieters unterstützt, sondern auch bei der initialen Compliance-Prüfung und bei der Identifikation des ersten Use Case. Ziel ist dabei, durch einen ganz klaren Fokus auf die Umsetzung dieses Use Case ein Erfolgserlebnis zu schaffen und damit Akzeptanz zu erzeugen. Dabei kommen vorevaluierte Lösungen zum Einsatz, die Basisfunktionen sicherstellen. Das sorgt dafür, dass man sich nicht gleich zu Beginn in komplexen Themen wie Zugriffskonzepten und dem Aufbau einer Vielzahl von Pipelines verliert. Weil der Aufbau der Lösungen konsequent modular ist, kann sich das Team anschließend Schritt für Schritt um die Verfeinerung kümmern.

Stichwort Use Case: Können Sie uns ein Beispiel für einen typischen Use Case geben und wie er innerhalb des Data Lake umgesetzt wird?

Pfeiffer: Ein spannender Use Case, der sich in vielen Unternehmen einführen lässt, ohne direkt in den produktiven Betrieb einzugreifen, ist die automatisierte Ermittlung einer optimalen Angebotsempfehlung für individuelle Kunden, auch "next best offer” genannt. Hierbei werden Kundendaten, Kaufhistorien und Produktdaten aus unterschiedlichen Quellsystemen in den Data Lake geladen und mittels Machine Learning ermittelt, für welches Produkt die Kombination aus der erwarteten Kaufwahrscheinlichkeit des individuellen Kunden und des Produktwertes am besten ist. Im Anschluss wird dieses dem Kunden beispielsweise per Newsletter oder als Empfehlung bei einem eingehenden Anruf angeboten. Dieses Empfehlungssystem lässt sich auch erst einmal im Schattenbetrieb einsetzen, um Erfahrungen unter Ausschluss von Risiken für Produktivsysteme zu sammeln. Voraussetzung ist jedoch, sämtliche Daten aus allen relevanten Systemen zu verknüpfen. Dafür ist ein Data Lake optimal. Auch die Frage, welche Daten überhaupt für ein solches Angebot verwendet werden dürfen, wird hier zentral je Datensatz beantwortet, wodurch zukünftige Zugriffe von Data Scientists beschleunigt werden, da sie ohne langwierige Genehmigungsprozesse für den jeweiligen Einzelfall stattfinden können.

Wie wichtig ist die Compliance bei der Implementierung eines Data Lake?

Pfeiffer: Compliance ist ein entscheidender Aspekt beim Aufbau eines Data Lake. Ohne die Erfüllung datenschutzrechtlicher und regulatorischer Anforderungen kein produktiver Betrieb. Dazu ist eine fundierte Bewertung hinsichtlich Datenschutz und Datensicherheit sowie die Einhaltung von Compliance-Vorschriften erforderlich. Das kann sehr komplex sein, abhängig von der Art der gespeicherten Daten sowie der Region und der Branche, in der das Unternehmen tätig ist. Hier ist Erfahrung und Querschnittswissen gefragt, damit spätere böse Überraschungen ausbleiben.

Die Schlüsselrolle liegt also bei Konzept, Strategie und Compliance. Die technologische Umsetzung ist dann zweitrangig, richtig?

Pfeiffer: Nein, absolut nicht – die richtige Technologie ist sogar entscheidend. Eine über Jahre optimierte Datenplattform im Unternehmen durch eine unpassende neue Architektur zu ersetzen, wäre nicht zielführend. Die Data-Lake-Plattform muss zu den spezifischen Anforderungen und Zielen des Unternehmens passen. In der Regel bedeutet das: die richtige Cloud wählen. Cloud-native Vorteile wie die Skalierbarkeit, Anbindungsmöglichkeiten an unterschiedliche Systeme sowie Serverless Computing und der Einsatz von Microservices sind für die Funktionalität des Data Lake prädestiniert. Nur in der Cloud ist es zum Beispiel möglich, für eine kurzfristige Anwendung eines KI-Modells auch einmal nur wenige Sekunden über zusätzliche DPUs (Data Processing Units) zu verfügen, die die Ausführung zugehöriger Algorithmen immens beschleunigen. On-Prem-Betrieb ist grundsätzlich möglich, aber selten sinnvoll.

Womit steht und fällt der Mehrwert von Data Lakes?

Pfeiffer: Der "See" darf nicht zum "Sumpf" werden. So reizvoll die Möglichkeiten eines Data Lake sind – das Prinzip der Offenheit verführt eben auch zur Willkür. Deshalb ist es so wichtig, dass Unternehmen von Anfang an eine klare Strategie und einen Plan für die Nutzung ihres Data Lake haben.

Ebenso entscheidend sind die Datenqualität und das Datenbewusstsein der Mitarbeiter. In Zeiten von exponentiellem Datenwachstum und IoT, wobei selbst die Kaffeemaschine zum Datenerzeuger wird, ist es von immenser Bedeutung, eine hohe Datenqualität zu gewährleisten. Alle Mitarbeitende müssen wissen, wofür und in welcher Qualität die von ihnen eingebrachten Daten im Unternehmen benötigt werden. Sonst werden die Datenbestände schnell zur trüben Brühe, also unsortiert und unzureichend gemanagt. Wenn dann im Zuge des Aufbaus von KI-Anwendungen nach wertschöpfenden Informationen gesucht werden soll, stellt sich wieder die Frage nach der Gültigkeit und Zuverlässigkeit der Daten – und das kostet Zeit, Geld und letztlich Wettbewerbsfähigkeit. Ein Data Lake ist ein hilfreiches Prinzip für digitalisierte Unternehmen – aber allein kein Erfolgsgarant.

Artikel empfehlen