Elastisch skalierbar – The new Data Lake

Oracle ist der Überzeugung, dass Object Storage die bessere Speicherform für Data Lakes ist. "Historisch" gesehen, basieren bisherige Data Lake-Konzepte meist auf Hadoop bzw. dem Hadoop Distributed File System (HDFS), das pro Rechner-Knoten Speicher und Rechenleistung bindet. Beim Aufbau unternehmensweiter Data Lakes kann dies mit steigender Größe einen ineffizienten Einsatz von Computer-Ressourcen bedeuten, der beim Aufbau solcher IT-Infrastrukturen zu berücksichtigen ist.

Cloud-Computing-Lösungen bieten hier bessere Optionen an: Für relativ statische Dateien eignet sich der Einsatz von Object Storage, der Daten über mehrere Rechenzentren hinweg repliziert und verteilt, um die Verfügbarkeit und die Datenintegrität zu erhöhen. Rechenleistung läßt sich vom Speicherbedarf entkoppeln und damit kann jede Größe voneinander unabhängig wachsen. Oracle's Guidance ist es daher, im Data Lake alle Daten im Object Store abzulegen und nur im Bedarfsfall in der dafür vorgesehenen Analyseumgebung (z.B. Analyse Notebook mit Python Interpreter) oder für eine Applikation bereitzustellen. Aufwände, die z.B. durch zusätzliche Kopieroperationen entstehen, sind am Ende des Tages klein im Vergleich zu den möglichen Einsparungen und die erhöhte Flexibilität bei unterschiedlichen Big Data Use Cases.

In diesem Talk wird das Konzept des "neuen Data Lakes" am praktischen Beispiel veranschaulicht: (1) Einrichten einer Object Storage Instanz und eines Big Data Cloud Service (Compute Edition, BDCS-CE) in der Oracle Cloud; (2) Verwendung von Analyse Notebooks, Object Storage/HDFS, Spark und Spark SQL; (3) Einrichten eines Event Hub Cloud Service (OEHCS) Instanz und (4) Verwendung von Kafka/Spark Streaming zur Abfrage/Analyse von Live-Transaktionsdaten.

Dienstag, 21.11.2017
13:00 - 13:45
Helsinki
Fortgeschrittene
Deutsch
Data Analytics
Demo
Erb

Harald Erb

Snowflake Computing
Blog: http://
Harald Erb arbeitet als Sales Engineer für Snowflake Computing und unterstützt Unternehmen bei der Einführung ihres elastischen Cloud-Data Warehouses. Zuvor war er in seiner 20-jährigen Analytics-Laufbahn bei Hitachi Vantara als Solutions Consultant im Bereich Data Analytics & IoT tätig und hatte bei Oracle verschiedene Rollen als Consultant, Projektleiter und Architekt in der EMEA-Region inne. Sein Interesse gilt dem Design und der Umsetzung moderner Smart Data Plattformen. Zu seinen Spezialgebieten gehören Business Analytics, Data Warehousing, Datenintegration und Data Discovery. Seit einigen Jahren beschäftigt er sich mit der Frage, wie sich Open Source- und Enterprise-Technologien optimal in bestehende Systemlandschaften integrieren und wie sich mit statistischem Lernen neue Erkenntnisse aus allen verfügbaren Datenquellen ziehen lassen. Er ist regelmäßiger Sprecher auf Oracle- und anderen Konferenzen und Autor verschiedener Fachartikel.

Weitere Vorträge von Harald Erb

Machine Learning 101 – wie geht das in der Oracle Cloud?
Wednesday, 22.11.2017
Helsinki
13:00 - 13:45

Weitere Vorträge, die Sie interessieren könnten