Peter Welker: „Ein Generator wird eine Lösung nie hundertprozentig abdecken“

  • Erstellt von Peter Welker
  • Data Warehouse

Die DOAG 2013 Business Intelligence Community Konferenz rückt näher: Am 17. April findet die Tageskonferenz in München unter dem Motto "BI-Konsolidierung" statt. Peter Welker, Solution Manager BI bei Trivadis, ist Keynote Speaker. Im Interview mit DOAG Online spricht er über den Einsatz von Generatoren, Appliances und einiges mehr.

DOAG Online: Generatoren sind ein viel diskutiertes Thema. Manche halten sie für zu unflexibel, andere schwören darauf. Wann lohnt sich der Einsatz von Generatoren?

Peter Welker: Ein Generator wird eine Lösung nie hundertprozentig abdecken – sondern vielleicht nur zu 95 Prozent, 80 Prozent, 50 Prozent oder auch weniger. Entscheidend ist dabei, wie gut er sich erweitern und ergänzen lässt.

Generatoren, die auf Basis eines Modells Code generieren, sind seit langem weit verbreitet. Sie bieten zahlreiche Vorteile wie gleichbleibende Code-Qualität, geringere Komplexität und automatisierbare Dokumentation, vor allem aber Einsparpotentiale bei Zeit und Aufwand – und somit letztlich auch bei den Kosten.

Damit die Vorteile aber wirklich zum Tragen kommen, dürfen die Nachteile natürlich nicht überwiegen: die Kosten für die Beschaffung oder Entwicklung eines Generators, zusätzliche Einarbeitungsaufwände sowie die Einschränkungen des Modells gegenüber den Anforderungen.

DOAG Online: Wie einfach ist es, ein Data Warehouse zu generieren?

Peter Welker: Wenige IT-Lösungen eignen sich so gut für einen Generatoreinsatz wie ein Data Warehouse. Die Anforderungen des Business variieren natürlich von Branche zu Branche und von Einsatzgebiet zu Einsatzgebiet. Die technische Umsetzung ist aber weitgehend identisch.

Die meisten erfolgreichen Implementierungen basieren letztlich auf Data-Warehouse-Ansätzen, die beispielsweise von Bill Inmon oder Ralph Kimball schon vor mehr als 20 Jahren initiiert  wurden. Diese Modelle und Patterns sind seitdem stets verbessert und erweitert worden. Heutzutage sehen wir sie folgerichtig in fast jedem Data Warehouse, dem wir bisher in Projekten begegnet sind.

Das gilt natürlich nicht nur für die, die wir selbst entwickeln – das wäre ja eine sich selbst erfüllende Prophezeiung – sondern insbesondere auch für die zahlreichen Reviews, die wir für bereits bestehende Lösungen durchführen.

Diese Einheitlichkeit spricht klar für einen Generatoreinsatz, weil sich im Generatormodell so ein großer Teil der technischen Kriterien mit relativ begrenztem Aufwand abbilden lässt. Einen Teil dieser Möglichkeiten decken ETL-Werkzeuge bereits ab. Sie sind darum auch schon lange erfolgreich im Einsatz. Das alleine genügt aber noch nicht.

Man braucht auch einheitliche Konventionen im Modell, in den Prozessen und in der Nomenklatur. Dazu kommt, dass man mit einem ETL-Werkzeug üblicherweise jede DWH-Ebene (also Staging, Cleansing, Core, Marts) separat modelliert und bewirtschaftet. Das bietet nochmals Spielraum für eine Automatisierung. Ein Generator kann hier als steuernde Instanz auf ein ETL-Werkzeug aufsetzen und dessen Funktionalität nutzen.

DOAG Online: Erleichtern Appliances den Aufbau und den Betrieb von Data-Warehouse-Systemen ?

Peter Welker: Appliances sind ja vorgefertigte Systeme aus Hard- und Software. Der Vorteil liegt in der Abstimmung der beiden Komponenten auf einen bestimmten Zweck hin, sagen wir auf „Data Warehousing“. Man spart sich also den aufwändigen Prozess, die richtige Hardware für den gewünschten Zweck und die zu nutzende Software auszuwählen und alle Bestandteile sauber aufeinander einzustellen. Das Ergebnis von vorgefertigten Systemen: einerseits Kosten sparen und andererseits Performance und Verfügbarkeit verbessern.

Die Komplexität dieser Abstimmung führt sogar dazu, dass viele Lösungen prinzipiell nur als Hard- und Softwarekombination verfügbar sind. Das ist bei MPP (Massively Parallel Processing)-Systemen wie Oracle Exadata, Teradata oder Microsoft PDW zum Beispiel der Fall.

DOAG Online: Welche Maschinen kommen dafür in Frage? Wie unterscheiden sie sich voneinander?

Peter Welker: Im DWH Umfeld haben sich im Wesentlichen drei Arten von Appliances verbreitet. Da sind zum einen die einfachen, kostengünstigen und gut abgestimmten Lösungen für Datenbanken wie Microsoft SQL Server Fast Track, eine Referenzlösung für den DWH-Datenbankbetrieb mit Implementierungen verschiedener Hardware-Hersteller. Zu dieser Gruppe gehört auch die Oracle Database Appliance.

Zweitens gibt es die bereits erwähnten MPP-Systeme. Diese sind insbesondere auf Performance und Kapazität ausgelegt, stark erweiterbar und skalieren sehr gut bis in den drei- und vierstelligen Terabyte-Bereich hinauf, wenn das DWH-Modell richtig implementiert wird. Das sind in der Regel Systeme aus zahlreichen kleineren Rechnern mit jeweils lokalem Storage und extrem effizienter Vernetzung untereinander.

Als dritte Gruppe sehe ich die In-Memory-Lösungen wie zum Beispiel SAP HANA oder Oracle Exalytics. Hier geht es nicht um riesige Kapazitäten sondern um extrem hohe Performance für faktisch interaktives Arbeiten bei mittleren Datenmengen. Das wird begrenzt von der Hardware-Kapazität und der Kompressionsrate der Daten im Hauptspeicher. Wir sprechen hier heute noch von Datenmengen im einstelligen Terabyte Bereich.

DOAG Online: Das Dilemma Datensammeln: Müssen Unternehmen all ihre Daten speichern, um in Zukunft konkurrenzfähig zu bleiben?

Peter Welker: Für die klassischen Unternehmensdaten aus ERP, CRM und anderen operativen Systemen ist diese Frage beantwortet: Es wird im Allgemeinen nichts gelöscht, höchstens archiviert. Ausnahmen sind Unternehmen, die Daten aus rechtlichen Gründen nach einer bestimmten Zeitspanne vernichten müssen, so zum Beispiel die TelCo-Branche mit ihren Call Data Records.

Was aber tun mit den großen Datenmengen aus Dokumenten, Bildern, Videos, Weblogs, Messwerte, Social-Media-Informationen, bei denen der Nutzen einer längerfristigen Speicherung jetzt noch nicht offensichtlich ist?

Heute entstehen an der Schnittstelle zwischen IT und Business die unterschiedlichsten Szenarien. Neben einigen offensichtlichen Möglichkeiten wie die Optimierung von Webauftritten anhand des Surf-Verhaltens von Kunden sind explorative Verfahren rund ums Data Mining interessant. Damit lassen sich beispielsweise Thesen über Kundenverhalten verifizieren, bisher unbekannte Zusammenhänge in Messdaten erkennen oder Handelsprognosen verbessern.

Unsere Empfehlung lautet: Speichern Sie nicht einfach alle Daten, sondern bringen Sie heute die neuen Möglichkeiten mit den Business-Anforderungen zusammen. Wenn konkrete Hinweise auf den Nutzen bestimmter Daten vorliegen, kann es sich lohnen, diese auf einer geeigneten Big-Data-Lösung zu speichern und die Szenarien dort zu erproben.

Eine Hadoop-Lösung ist beispielsweise im Vergleich zu den etablierten Storage- bzw. Datenbank-Lösungen außerordentlich günstig, wenn man bei Standardkriterien wie zum Beispiel Hochverfügbarkeit oder Recovery-Fähigkeiten Abstriche macht. Und Hadoop bringt gleich noch die Rechenleistung zur Analyse der abgelegten Daten mit. Am Ende könnte eine solche Lösung zudem als neue Quelle für die BI-Infrastruktur eines Unternehmens genutzt werden.

DOAG Online: Stichwort Big Data - Wird der Big-Data-Ansatz den Umgang mit entscheidungsrelevanten Daten von Grund auf verändern?

Peter Welker: Big Data ist nicht nur im BI-Umfeld interessant. Unter diesem Begriff subsummieren sich Technologien, die sich auch für die Analyse großer Datenströme (Stichwort Fast Data) eignen – aber auch Beziehungen in sozialen Netzwerken oder geografischen Daten und so weiter. Was den Einsatz im BI-Umfeld angeht: Die Grundlage klassischer Management-Informationssysteme sind unter anderem übergreifende Strukturen, gesäuberte und integrierte Daten, hohe Informationsdichte- und Qualität, leichte Bedienbarkeit und ausreichende Performance für interaktives Arbeiten von zehn, 100 und mehr konkurrierenden Endanwendern.

Das ist heute nicht die Stoßrichtung von Hadoop & Co. Aber es bieten sich jetzt erstmals erschwingliche Möglichkeiten, bisher unerreichbare Informationswelten zu erschließen. Big Data wird unseren BI-Horizont also auf jeden Fall deutlich erweitern. Sei es als Lieferant von vorverarbeiteten Massendaten, als flexible Plattform für explorative Analysen oder als Langzeitarchiv von Daten hoher Granularität.