Data Lakes - Der Datenozean als nächster Evolutionsschritt?

Werden bislang bevorzug Data-Warehouses oder Data-Marts genutzt, um große Datenmengen zu speichern, kommen die sogenannten Data Lakes oder Datenozeane verstärkt ins Gespräch. Die Vorteile sind auf den ersten Blick plausibel, allerdings gibt es einige wichtige Einschränkungen zu beachten.

Business Intelligence - gezielte Fragen bringen korrekte Antworten

Die gängigen Business Intelligence Systeme funktionieren auf der Grundlage von Datenbanken oder -anwendungen, die zwar transaktional, aber auf einem bestimmten Schema aufgebaut sind:  Vorgeschaltete ETL müssen die verschiedenen Datenquellen effektiv zusammenführen sowie bereinigen und transformieren, um sie dann in die betreffende Ebene einer Datenbank zu laden. Nur so kann diese Datenbank oder -anwendung die korrekten Ergebnisse liefern, die die verschiedenen Nutzer in Unternehmen erwarten: aktuell, konsistent und in anderen Formaten unkompliziert zu verarbeiten. Sollen allerdings weitergehende Fragestellungen bearbeitet werden, sind diese Analyseinstrumente nicht mehr ausreichend. Beispielsweise wird für eine Selektion von Kundendaten nach Alter, Wohnort oder Einkommensschicht ein spezielles CRM-System notwendig, zur Auswertung von Marketing-Aktionen benötigen Unternehmen wiederum eine spezielle Kampagnen-Software. Die Aufbereitung, Zuordnung und Filterung der vorliegenden Informationen bewirkt also nicht nur die effektive Verarbeitung, sie stellt auch eine Begrenzung dar, wird sie nicht von vornherein breit aufgestellt.

Big Data - enorme Mengen in den vielfältigsten Formaten, Größen und Geschwindigkeiten

Die Herausforderung für die Datenverarbeitung besteht demnach darin, die immer größer werdende Datenflut, die sich nicht nur im Hinblick auf die Formate, sondern vor allem auch im Bezug auf die Größe, die Geschwindigkeit und die Zuverlässigkeit sehr vielfältig gestaltet, intensiver ausnutzen zu können. Der Quantensprung, der dafür notwendig ist, beginnt schon in der Speicherung: Data Lakes verzichten auf die aufwendige Filterung und Kategorisierung der unterschiedlichen Daten, diese sogenannten Rohdaten können mit einfachsten Mitteln gespeichert werden. Beispielsweise nutzen Facebook, Yahoo oder AOL mit Apache Hadoop ein Framework, das im Prinzip unbegrenzte Datenmengen fassen kann. Zur Verarbeitung können die unterschiedlichsten Werkzeuge genutzt werden, wenn sie Hadoop lesen kann. Vor allem beeindruckt die Flexibilität: Eine Einschränkung hinsichtlich der Fragestellungen gibt es nämlich nicht. Ein solches Cluster lässt sich in jedes Datenbanksystem integrieren, zumal die meisten Anbieter Business Analytics der Big Data auf Abruf eröffnen. Die unbegrenzten Möglichkeiten der Datenozeane dürfen aber nicht darüber hinwegtäuschen, dass die verlässliche Datenanalyse enormes Fachwissen benötigt.

Datenozeane - die endlose Weite der Big Data

Grundsätzlich ist der Ansatz der großen Datenozeane die Voraussetzung für die datenzentrische Analyse und diese enorme Flexibilität, die die unterschiedlichsten Business Analytics eröffnet. Mit der einmaligen Speicherung der Rohdaten in ihrer ursprünglichen Form stehen sie zur individuellen und zielgerichteten Verfeinerung, Änderung oder Bearbeitung zur Verfügung. Nur so können die gewaltigen Mengen an Informationen, die beispielsweise in einer Bank gesammelt werden, zur Erzeugung aussagekräftiger Risikoprofile und der Entwicklung darauf basierenden Marketing-Kampagnen effektiv genutzt werden. Aber einen Ersatz für die eingeführten Business Intelligence Systeme mit ETL und Datenbanken können die Datenozeane nicht ohne Weiteres darstellen.

Problemstellung - ein Datenozean will beherrscht werden

Schon die Indizes und anzulegenden Beziehungen zwischen den verschiedenen Daten, die für die Durchsuchung der enormen Bestände notwendig sind, stellen eine Herausforderung dar. Dazu sollten sowohl Data Mining als auch die Textanalyse möglich sein, um die Datenintegration unstrukturierter Informationen, wie beispielsweise aus Blogs, überhaupt zu bewerkstelligen. Zur Verarbeitung im Hauptspeicher müssen die Daten komprimiert werden, dabei stellt sich die Frage nach der Verdichtungsrate und der Datenqualität bei der Datenintegration. Ein äußerst wichtiger Punkt ist die Datensicherheit, die wirksame Schutzmechanismen und Zugriffskontrollen erfordert. So befreiend die Entwicklung der Datenozeane im Hinblick auf die mögliche Datenanalyse auch ist, ohne eine Information Governance durch Spezialisten können weder die Datensicherheit noch -qualität gewährleistet werden. Nur intelligente Metadaten und Indizes machen aus der riesigen Ansammlung von Daten einen wirklichen Data Lake - der als Anfang einer überaus interessanten und erfolgversprechenden Entwicklung betrachtet werden sollte.

comments powered by Disqus