Zum Inhalt springen

Big Data

  • Von: Christian Schwitalla
  • Business Intelligence Big Data Data Warehouse BI Reports Data Integration Self Services Advanced Analytics Datenbank Development PL/SQL
  • 05.10.2017

DOAG Big Data Days: Mit neuem Format bei den Teilnehmern punkten

Die vierten DOAG Big Data Days fanden in diesem Jahr mit rund 90 Teilnehmern in Kassel statt. Die Themen künstliche Intelligenz, Data Lakes, Analytics-Lösungen sorgten während der zweitägigen Konferenz für viele Gespräche unter den Teilnehmern. Das neue Format mit zwei parallel laufenden Veranstaltungen kam gut an: Die Teilnehmer konnten zusätzlich frei zwischen den einzelnen Tracks des Reporting Days und Geodata Days wählen.

In der ersten Vortragsreihe „Oracle und Big Data“ stellte Alfred Schlaucher von Oracle das Thema Big Data aus der Sicht des Herstellers vor. Der Referent führte im ersten Teil in das Thema ein – gut für Big-Data-Anfänger, die vielleicht noch nie Fachbegriffe wie Hadoop gehört haben. Im Mittelpunkt standen dann Oracle SQL Big Data, die Koexistenz und der Datenaustausch zwischen den unterschiedlichen Systemen.

Im nächsten Vortrag stellte Andreas Buckenhofer von Daimler TSS GmbH einen interessanten Praxisbericht zum Thema Data Lakes vor. Zahlreiche Erfahrungen aus reellen Projekten prägten die Präsentation. Big Data und Data Lakes gehörten mittlerweile zum Projektalltag der Daimler-Tochter und Buckenhofer sieht auch in Zukunft die Rolle des Data Warehouses ungefährdet. Sinnvoll sei eine Koexistenz von klassischen DWHs und Data Lakes, erklärte der Dozenten in einem Fazit. Data Lakes seien zwar schnell angelegt, aber der professionelle Betrieb solcher Systeme sei nicht weniger anspruchsvoll als im Falle von DWHs. Spätestens beim Lesen der Daten (Schema on Read) spielten Kenntnisse der Struktur gespeicherter Informationen eine große Rolle – auch hier würde nach wie vor Datenmodellierung gebraucht. Generell sei die eingesetzte Technik aus Sicht des Anwenders zweitrangig. Hier spiele eher der logische Blick auf das gesamte System die wichtigere Rolle.

Die Frage, ob Big Data in der Cloud oder doch lieber On-Premises bleiben sollte, stellte Guido Schmutz von Trivadis. Der Dozent beschäftigt sich seit vielen Jahren mit der Architektur von IT-Systemen. Basierend auf Projekterfahrungen zeichnete Guido Schmutz ein sehr differenziertes Bild: Eine simple Antwort auf diese Frage gebe es nicht. Zumal es sich hierbei nicht um eine Entweder-oder-Frage handele. Hybride Architekturen können durchaus eine interessante Alternative sein. Enorm wichtig sei die Analyse des Ist-Zustands und die präzise Definition der Ziele eines Migrationsprojektes. Bei der Komplexität der Materie sei es sinnvoll, viel Zeit in die Planung zu investieren, so das Fazit von Guido Schmutz. Der Dozent hat beispielhaft die Cloud-Angebote von ein paar Herstellern vorgestellt. Alleine die Vielzahl von Anbietern und deren Angeboten auf dem Markt macht die Aufgabe nicht einfach.

Timm Marschall von der Universität Stuttgart referierte über agile, analyseorientierte Datenhaltung in Big-Data-Umgebungen. Klassische Data-Warehause-Projekte leiden häufig darunter, dass die Anforderungen der Fachabteilungen nicht schnell genug umgesetzt werden können. Kann der Einsatz von Big Data hier Abhilfe schaffen? Ja, so das Fazit des Dozenten, wenn die richtige Methodik zum Einsatz komme. Darum geht es in einem Forschungsprojekt an der Uni Stuttgart, von dem Marschall berichtete. Zentrale Rolle spielen hierbei spezielle Datenmodelle.

Zum Abschluss des Tages berichtete Ulrike Schwinn von Oracle in Ihrem Vortrag über Tipps und Tricks zur Speicherung und den Zugriff heterogener Datenmengen in der Datenbank. Zum Teil ging es um noch weniger bekannte Datenbank-Features, die gerade in der Version 12.2 viele Neuerungen bieten. Einige Beispiele sind:

  • Laden und Entladen von Daten über External Tables,
  • Datenaufbereitung mit Preprocessing,
  • Zugriff auf heterogene Daten (z. B. XML, JSON, Daten in Hadoop),
  • Performanter Zugriff auf große Datenmengen.

Ulrike Schwinns Fazit: die Datenbank habe in Puncto heterogene Daten und große Datenmengen häufig viel mehr zu bieten, als man im ersten Moment vermutet. Es lohne sich häufig, ein wenig Zeit in die Betrachtung der wenig bekannten Datenbank-Features zu investieren. Am Abend gab es viel Zeit für gemütliches Beisammensein und Networking während des gemeinsamen Abendessens.

Der zweite Tag begann mit Olaf Nimz von Trivadis. In dem Vortrag „Datenqualität im DWH und Data Lake: Automatische Anomalieerkennung“ präsentierte der Dozent interessante Methoden, die es erlauben, nicht plausible Daten bereits im Vorfeld einer ETL-Strecke zu erkennen. Durch Vermeidung solcher Ausreißer könne die Datenqualität im DWH drastisch erhöht werden, so Nimz. Die Materie sei höchst komplex. Solche Methoden profitierten auch von maschinellem Lernen. Damit lieferte der Referent einen Vorgeschmack auf die beiden letzten Vorträge des Tages.

Im Doppelvortrag „Anki Overdrive Demo“ stellten Detlef Schröder und Karin Patenge von Oracle einen spannenden Showcase vor. Bei der Anki Overdrive handelt es sich um eine Rennbahn für kleine Modellautos. Sie war während der beiden Tage im Tagungsraum aufgebaut. Das besondere an der Anki-Rennbahn waren die miteinander vernetzten Sensoren. Die Echtzeitdaten flossen in die Cloud und konnten von den Teilnehmern betrachtet und ausgewertet werden. Gesteuert wurden die Autos per Smartphone-App. Bei Unfällen startete eine Drohne und machte Fotos des Unfallortes. Der Showcase lieferte einen Ausblick auf die vernetzte Welt von morgen. Stichworte wie Digitalisierung, IoT und Cloud konnten hier sehr anschaulich präsentiert werden.

Im Vortrag „Die Verwandlung: Vom DWH-Mann zum Kafka-User – Einstieg in moderne Event-Lösungen für Oracle-Entwickler und DBAs“ präsentierte Jan Ott von Trivadis das Messaging-System Apache Kafka. Es handelt sich dabei um eine Open Source „Distributed Streaming Platform“. Kafkas Stärke liegt in der Verarbeitung von Events in hohen Mengen und wurde ursprünglich von LinkedIn entwickelt, weil das Unternehmen mit den damals verfügbaren Systemen nicht mehr den enormen Strom an Informationen verarbeiten konnte. Kafka wurde daher von Anfang an auf Performance ausgelegt und kann gut horizontal skalieren. Insbesondere im Kontext von Big Data kommt Kafka häufig zum Einsatz und wird heute von vielen Big Playern eingesetzt. Jan Ott stellte die Kafka-Architektur vor, berichtete von seinen Projekterfahrungen und präsentierte Demos. Sein Fazit zu Kafka fiel positiv aus. „Das besondere an Kafka“, so Jan Ott, „liegt darin, dass auch Oracle Datenbankentwickler ohne tiefe Java Kenntnisse schnell mit Kafka warm werden können.“

Im nächsten Vortrag „Vergleich von großen relationalen DBs im Cloud Zeitalter“ von Matthias Fuchs, Esentri, ging es um die Fragestellung, welche alternativen Datenbanksysteme unter dem Einfluss der Cloud-Architektur entstanden sind und welche Stärken und Schwächen sie haben. Verglichen wurde die Oracle Datenbank mit Amazon Aurora und Google Spanner. Insbesondere die Google NewSQL-Spanner-Datenbank weckte Neugier. Sie wird von Google selbst eingesetzt und bietet inzwischen zahlreiche Features der klassischen relationalen Datenbanken. Die Vorteile einer solchen Architektur liegen in der guten Unterstützung von globalen, verteilten Anwendungen. „Die Oracle-Datenbank punktet jedoch nach wie vor mit der ausgereiften Technik und der guten Unterstützung für Datenbankentwickler“, so Matthias Fuchs. Der Dozent stellte auch einen Performance-Vergleich der Datenbanken vor. Hier punktete die Oracle-Datenbank insbesondere bei sehr komplexen Abfragen. Insgesamt sei es ein spannendes Thema, welches man unbedingt im Auge behalten sollte, so das Fazit des Dozenten.

Mit den letzten zwei Vorträgen rückte das Thema künstliche Intelligenz (AI) in den Mittelpunkt. Zunächst präsentierte Andreas Koop von Enpit, in seinem Vortrag „Mit Legosteinen Maschinelles Lernen lernen“ einen Einstieg in das Thema. Er stellte seinen Weg in die Welt der AI vor: Ein Programm zur Erkennung von Legobausteinen. Dabei lernten die Teilnehmer die Grundlagen des maschinellen Lernens und den Aufbau und die Funktionsweise von neuronalen Netzwerken kennen. Bei dem überwachten maschinellen Lernen wird ein System darauf hin optimiert, bei bestimmter Datenbasis (in dem Fall Fotos von Legobausteinen) das gewünschte Ergebnis zu erzielen (in dem Fall Erkennen von bestimmten Typen der Lego-Bausteine). Der Sinn der Übung lag darin, dass ein so trainiertes System und später auch andere Typen von Legobausteinen zuverlässig erkennen kann. Das Thema beeindruckte sichtlich viele Teilnehmer!

Als Abschluss präsentierte Sigrid Keydana von Trivadis in dem Vortrag „Einblick in Deep Learning“ weitere interessante Aspekte des maschinellen Lernens. In ihrem Beispiel ging es um die Erkennung von Rissen im Asphalt. Die Dozentin ging detailliert auf den Aufbau von neuronalen Netzwerken ein, die sogar komplexere Aufgaben lösen könnten, wie zum Beispiel Bilderkennung. Hierzu erläuterte die Dozentin den allgemeinen Aufbau eines künstlichen Neurons und stellte das Lernprogramm vor, mit dem das Erkennen von Asphalt-Rissen trainiert wurde. Solche Programme profitierten von großen Datenmengen. Im Abschluss entwickelte sich eine rege Diskussion um künftige Auswirkungen von künstlicher Intelligenz auf unseren Alltag.

Alle Vorträge des Big Data Days, Reporting Days und Geo Data Days können Sie hier als ZIP-Archiv runterladen: www.doag.org/go/VortraegeBigDataDays2017