Zum Inhalt springen
  • Von: DOAG Online
  • Data Warehouse Datenbank
  • 24.08.2015

Wie viel Magie und Mythos steckt im Trendthema Big Data?

Der Hype um Big Data reißt nicht ab. Im Gegenteil: Das Trendthema hat längst Einzug in die Welt der Oracle-Datenbank erhalten. Die DOAG Big Data Days am 17. und 18. September 2015 informieren alle interessierten Datenbankadministratoren und -Entwickler über die Verbindungsmöglichkeiten zwischen Big-Data-Technologien und der relationalen Datenbank. DOAG Online hat im Vorfeld den Referenten Christopher Thomsen, Leiter des Competence Center Big Data bei der OPITZ CONSULTING Deutschland GmbH, zum Thema befragt.

Der Hype um Big Data reißt nicht ab. Im Gegenteil: Das Trendthema hat längst Einzug in die Welt der Oracle-Datenbank erhalten. Die DOAG Big Data Days am 17. und 18. September 2015 informieren alle interessierten Datenbankadministratoren und -Entwickler über die Verbindungsmöglichkeiten zwischen Big-Data-Technologien und der relationalen Datenbank. DOAG Online hat im Vorfeld den Referenten Christopher Thomsen, Leiter des Competence Center Big Data bei der OPITZ CONSULTING Deutschland GmbH, zum Thema befragt.

Herr Thomsen, wie schätzen Sie die aktuelle Entwicklung von Big Data ein?

Meiner Meinung nach gilt gerade für uns in Deutschland nach wie vor das Zitat "Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it..." (lacht). Sieht man sich die derzeit laufenden Big-Data-Projekte am deutschen Markt genauer an, sind die wenigsten Unternehmen bereits über die Verprobung hinaus. Im Gegensatz zu den etablierten Datenbank-Technologien steckt in Big Data noch zu viel Magie und Mythos, um von der breiten Masse nüchtern betrachtet und beurteilt zu werden. Erst wenn dies abgelegt ist – also nach dem großen Hype –, werden Big-Data-Technologien und Konzepte die IT-Testlandschaften und prototypischen Anwendungsfälle verlassen und in der breiten Masse produktiv eingesetzt werden.

Was erwartet die Teilnehmer in Ihrem Vortrag bei den DOAG Big Data Days?

Spark ist eine der Technologien, die zum absoluten State-of-the-Art in der Big-Data-Szene gehört. Für viele Entwickler sind diese Technologien aber scheinbar weit von bekannten Datenbank- und Programmierkonzepten entfernt. Gerade Datenbankentwickler, die sich in der SQL-Welt zuhause fühlen, sehen mit dem Einsatz von Big-Data-Werkzeugen oft eine unangenehme Umstellung vor sich. In meinem Vortrag möchte ich daher Spark als eine der führenden Technologien zur verteilten Datenverarbeitung etwas entmystifizieren und gerade dem Datenbankentwickler zeigen, wo Parallelen zu ETL-Konzepten und prozeduraler Programmierung in PL/SQL bestehen. Auch die damit einhergehenden neuen Möglichkeiten möchte ich vorstellen.

Warum sollten Oracle-Datenbankentwickler Big-Data-Technologien nutzen?

Nicht alle Daten sind auf Grund ihres Volumens oder Wertes, der Art ihrer Strukturierung – z.B. hierarchisch oder objektorientiert – und ihrer Änderungshäufigkeit dafür geeignet, optimal in einer relationalen Datenbank organisiert zu werden. In vielen Anwendungsfällen für große, öffentliche Webanwendungen spielt die Gewährleistung der stetigen Konsistenz aller wiedergegebenen Daten eine immer geringere Rolle. Die unbegrenzte Skalierbarkeit wird dagegen immer wichtiger. Nicht zuletzt sind gerade prädiktive Analysen, die den Zweck verfolgen, aus Daten Vorhersagen zu treffen, in den meisten Fällen sehr rechenaufwändig. Sie lassen sich auf einzelnen relationalen Datenbank-Servern nur bis zu einem bestimmten Limit sowie meist nur zu sehr hohen Kosten skalieren. Außerdem müssen sie in den meisten Fällen nächtlich außerhalb der Arbeitszeiten oder aber auf einer gespiegelten Maschine ausgeführt werden.

In all diesen genannten Fällen bieten verschiedene Datenbanksysteme, die unter "Big Data" zusammengefasst werden, Alternativen, um diese Herausforderungen skalierbarer, ressourceneffizienter, flexibler und vor allem günstiger zu lösen. Leider wird dies oft so aufgefasst, dass die Big-Data-Evangelisten proklamieren würden, dass mit Hadoop und NoSQL-Datenbanken das Ende der relationalen Datenbanken angebrochen sei. Dem ist mitnichten so. Denn während die relationale Datenbank sich über die Jahrzehnte als Allrounder für jegliche Art der Datenverarbeitung etabliert hat, sind die graphen- und spaltenorientierten Datenbanken, Key-Value Stores und Dokumenten-Datenbanken, die wir unter NoSQL zusammenfassen, Spezialistensysteme, die auf eine ganz bestimmte Aufgabe optimiert sind und nicht für ähnliche Einsatzfälle wie typische DWH-Systeme geeignet sind.

Wie sollte ich am besten vorgehen, wenn ich Big-Data-Technologien einsetzen möchte?

Sie sollten als erstes eines tun: Hören Sie auf, über Big Data zu reden, und sprechen Sie stattdessen über das, was Sie wirklich wollen und brauchen. Big Data ist ein Sammelbegriff für zahlreiche Themen und Technologien. Eine Beschäftigung mit Big Data als Ganzes ist auf Grund seiner Vielfältigkeit und der ständigen Veränderung des Ökosystems nur sehr oberflächlich möglich. Möchten Sie tiefer in die Materie eindringen, als es die üblichen Fachartikel zum Thema derzeit gestatten, müssen Sie sich auf ihre Anforderungen konzentrieren. Sie wollen ihre ETL-Strecken um semi-strukturierte Datenquellen erweitern und Ihre Durchlaufzeiten verringern? Dann reden wir wahrscheinlich über skalierbare und Format-unabhängige Plattformen wie Hadoop und darin enthaltene Werkzeuge zur Arbeit mit unterschiedlich strukturierten Daten. Suchen Sie in diesen Bereichen nach Informationen und Spezialisten.

Woran erkenne ich denn, dass Big Data auch in meinem Unternehmen relevant sein könnte?

Big Data wird in der Literatur häufig mit den 3Vs (Volume, Variety und Velocity) assoziiert. Das ist zwar nur eine sehr oberflächliche Darstellung, jedoch gibt sie meiner Meinung nach eine gute Einschätzung: Mindestens zwei dieser Vs sollten in Kombination zutreffen, um über Big Data zu sprechen.

Zum einen ist da die reine Datenmenge: Viele Unternehmen haben beispielsweise für spätere Auswertungen Unmengen an Log-Daten vorrätig, die sie entweder auf NFS-Dateisystemen lagern und damit nicht vernünftig abfragen können oder aber in eine Datenbank spielen und damit die Datenbank überlasten und gleichzeitig hohe Kosten verursachen. Hier stellt zum einen die Datenhaltung, zum anderen aber auch die Datenverarbeitung dieser Volumen eine Herausforderung dar. Ab einem Datenvolumen im zweistelligen Terabyte-Bereich fangen wir an, von „Big Data Volume“ zu sprechen.

Zum zweiten betrachtet man die Geschwindigkeit: Momentan ist es in vielen IT-Abteilungen "in", über In-Memory-Computing zu sprechen. Das rührt meistens daher, dass bestehende Auswertungen und Prozesse zu langläufig sind, Queries zu lange brauchen oder die Durchlaufzeit in den ETL-Strecken zu lang ist. Eine Erhöhung der Velocity der eigenen Datenverarbeitungsabläufe lässt sich prinzipiell und je nach Anwendungsfall auf drei Arten bewerkstelligen: In-Memory-Computing, Stream-Computing oder Scale-out.

Zuletzt gibt es noch die Vielfältigkeit der Daten: Über unstrukturierte Daten wird zwar viel im Zusammenhang mit Big Data gesprochen, ich habe jedoch noch nicht viele Firmen getroffen, die wirklich mit unstrukturierten Daten arbeiten. Sogenannte semi-strukturierte Daten wie XML und JSON-Daten, Logfiles, Social-Media-Daten, etc. sind es, die deutlich häufiger eine Rolle spielen und dem Datenbankentwickler das Leben schwer machen, da sie kein oder ein sich häufig änderndes Schema haben und erst von einem hierarchischen in ein tabellarischen Schema überführt werden müssen. Auch „Spare Tables“, also Tabellen, deren Zelleninhalte größtenteils NULL sind, lassen sich in einer relationalen Datenbank nur suboptimal verwalten.

Für Unternehmen, die sich mit diesen Herausforderungen konfrontiert sehen, und zugleich davon ausgehen, dass sie durch die Bewältigung dieser Herausforderungen weitere Einsichten über das eigene Unternehmen, die Kunden oder das Marktumfeld gewinnen können, kann Big Data gegebenenfalls eine hohe Relevanz haben.

 

Alle Interessierten finden auf den Veranstaltungsseiten weitere Informationen sowie die aktuelle Agenda. Sie können sich hier für die DOAG Big Data Days anmelden.