Big Data und die vier V-Herausforderungen

Im Zusammenhang mit Big-Data-Definitionen werden drei bis vier Herausforderungen beschrieben, die jeweils mit V beginnen. In der ursprünglichen Definition wurden nur drei Begriffe genannt: Volumen, Variety und Velocity. Volumen steht dabei für die Größe der Datenmenge bei unstrukturierten Daten: Die notwendige Datenanalyse kann nicht mehr mit herkömmlichen Mitteln bewältigt werden. Variety steht für die Vielfalt der Datenformate und Datenquellen, die durch komplexe Verarbeitungsprozesse im Unternehmen nicht mehr unter einen Hut gebracht werden können. Velocity steht für die zeitgerechte Verarbeitung der Datenmengen, damit schnell Resultate für Entscheidungsprozesse vorliegen. Recht früh konnte man aber in der Big-Data-Diskussion feststellen, dass nur dann gute Resultate mit Big Data erzielt werden können, wenn die zugrundeliegende Datenqualität ausreichend gesichert ist. Der vierte V-Begriff (Veracity) ist damit integraler Bestand von Big-Data-Definitionen geworden. Was steckt aus Unternehmersicht hinter den vier V-Begriffen und wie müssen Big-Data-Konzepte mit diesen Herausforderungen im Unternehmensinteresse klar kommen?

Volumen: Die Datenmenge kann nicht mehr mit herkömmlichen Mitteln bewältigt werden

Bisher war es so, dass große Datenmengen in isolierten Datensilos für sich getrennt betrachtet wurden. Jeder Bereich hatte seine eigenständigen Aufgaben und Datenbanken hatten den Zweck, diesen Bereich umfassend für die bereichsspezifischen Zwecke abzubilden. So wurden Marketinginformationen für das Marketing aufbereitet, Zahlungsinformationen wurden für das Rechnungswesen genutzt. Doch inzwischen hat man erkannt, dass diese Trennung der Bereiche nicht angemessen ist, um zukunftsfähig zu bleiben. Relevante Informationen müssen aus verschiedenen Bereichen zusammengeführt werden, damit der Erfolg für das Unternehmen umfassend umgesetzt werden kann.

Variety: Die Vielfalt von Datenquellen und Datenformaten erfordern eine andere Datenanalyse

Allerdings liegen in den unterschiedlichen Bereichen die Daten sehr unterschiedlich vor. Benutzerinteraktionen auf Webseiten können nicht sehr einfach den Kunden oder Interessenten zugeordnet werden. Bei Kommunikation mit Kunden werden Textinformationen benutzt, die nicht zu vorgegebenen Datenfelder passen. Es besteht die Gefahr, dass isolierte Datenbestände nicht so genutzt werden können, wie es für zukunftsorientiertes Handeln notwendig ist. Die Vielfalt der Datenformate kann aber nicht einfach reduziert werden, weil dadurch die Arbeit in den einzelnen Bereichen unzulässig eingeschränkt würde.

Velocity: Die zeitgerechte Verarbeitung der Daten muss gesichert werden

Ein weiteres großes Problem ist der Zeitaufwand, wenn unterschiedliche Datenbestände zusammengeführt werden müssen. Glücklicherweise sind die Kosten für Arbeitsspeicher inzwischen so niedrig, dass es machbar wird, auch sehr große Datenmengen gleichzeitig in den Zugriff zu nehmen. Man spricht in diesem Zusammenhang von In-Memory-Datenverarbeitung: Unterschiedliche Datenbanken werden gleichzeitig in den Speicher geladen und intelligente Computerprogramme greifen ein, um Zusammenhänge zu finden, an die bisher noch nicht gedacht werden konnte.

Veracity: Die Datenqualität entscheidet den Erfolg von Big Data

Doch das Hauptproblem für Big-Data-Auswertungsprozesse ist, dass unstrukturierte Daten nicht unbedingt zutreffende Daten über die zugrundeliegenden Prozesse darstellen. Daten fallen in allen Geschäftsbereichen laufend an und werden je nach Anwendungsfall sehr unterschiedlich weiterverarbeitet. So werden Rückmeldungen von Interessenten gelegentlich dokumentiert, aber in nicht ausreichend differenzierten Datenbeständen, die später Schwierigkeiten bei der Auswertung machen. Unternehmen sollten daran arbeiten, die Vielzahl der Datenbestände hinsichtlich ihrer Relevanz zu bewerten. Handelt es sich um Meinungsäußerungen oder Kritik an Produkten oder Vorgehensweisen, dann sollte sichergestellt werden, dass diese Aussagen repräsentativ erfasst werden, denn sonst entsteht ein schiefes Bild. Viele Daten garantieren keine gute Auswertungsperspektive, wenn es eher zufällig ist, dass diese Daten so umgeformt werden, dass sie ausreichend genau und spezifisch die zugrundeliegenden Abläufe darstellen.

Wir unterstützen Sie gerne bei einem Konzept und der späteren Umsetzung. Sprechen Sie uns an!

comments powered by Disqus