Elastisch skalierbar – The new Data Lake

Oracle ist der Überzeugung, dass Object Storage die bessere Speicherform für Data Lakes ist. "Historisch" gesehen, basieren bisherige Data Lake-Konzepte meist auf Hadoop bzw. dem Hadoop Distributed File System (HDFS), das pro Rechner-Knoten Speicher und Rechenleistung bindet. Beim Aufbau unternehmensweiter Data Lakes kann dies mit steigender Größe einen ineffizienten Einsatz von Computer-Ressourcen bedeuten, der beim Aufbau solcher IT-Infrastrukturen zu berücksichtigen ist.

Cloud-Computing-Lösungen bieten hier bessere Optionen an: Für relativ statische Dateien eignet sich der Einsatz von Object Storage, der Daten über mehrere Rechenzentren hinweg repliziert und verteilt, um die Verfügbarkeit und die Datenintegrität zu erhöhen. Rechenleistung läßt sich vom Speicherbedarf entkoppeln und damit kann jede Größe voneinander unabhängig wachsen. Oracle's Guidance ist es daher, im Data Lake alle Daten im Object Store abzulegen und nur im Bedarfsfall in der dafür vorgesehenen Analyseumgebung (z.B. Analyse Notebook mit Python Interpreter) oder für eine Applikation bereitzustellen. Aufwände, die z.B. durch zusätzliche Kopieroperationen entstehen, sind am Ende des Tages klein im Vergleich zu den möglichen Einsparungen und die erhöhte Flexibilität bei unterschiedlichen Big Data Use Cases.

In diesem Talk wird das Konzept des "neuen Data Lakes" am praktischen Beispiel veranschaulicht: (1) Einrichten einer Object Storage Instanz und eines Big Data Cloud Service (Compute Edition, BDCS-CE) in der Oracle Cloud; (2) Verwendung von Analyse Notebooks, Object Storage/HDFS, Spark und Spark SQL; (3) Einrichten eines Event Hub Cloud Service (OEHCS) Instanz und (4) Verwendung von Kafka/Spark Streaming zur Abfrage/Analyse von Live-Transaktionsdaten.

Dienstag, 21.11.2017
13:00 - 13:45
Helsinki
Fortgeschrittene
Deutsch
Data Analytics
Demo
Erb

Harald Erb

Snowflake Computing
Harald Erb arbeitet als Solutions Engineer für Snowflake Computing und unterstützt in Zentraleuropa verschiedenste Unternehmen bei Aufbau oder Modernisierung ihrer Daten- und Analyseplattformen. Zuvor war er in seiner über 20-jährigen IT-Laufbahn bei Hitachi Vantara, Pentaho und Oracle in verschiedenen Rollen als Presales-/Technical Consultant, Projektleiter und Solutions Architect international tätig. Zu seinen Spezialgebieten gehören Business Analytics, Data Warehousing, Datenintegration und Data Discovery. Seit einigen Jahren ist sein Arbeitsschwerpunkt, wie sich mit Maschinellem Lernen neue Erkenntnisse aus den meist noch ungehobenen Datenschätzen der Unternehmen ziehen und dabei Open-Source- und Enterprise-Technologie-Stacks optimal integrieren lassen. Er ist regelmäßiger Sprecher auf Snowflake-Events und anderen Konferenzen und Autor verschiedener Fachartikel.

Weitere Vorträge von Harald Erb

Machine Learning 101 – wie geht das in der Oracle Cloud?
Wednesday, 22.11.2017
Helsinki
13:00 - 13:45

Weitere Vorträge, die Sie interessieren könnten