Zum Inhalt springen

Business Intelligence

  • Von: Heli Helskyaho
  • Themen Business Intelligence Big Data
  • 09.08.2018

Maschinelles Lernen – kurz und bündig erklärt

Maschinelles Lernen (ML) ist derzeit ein sehr beliebtes Thema – aber worum geht es überhaupt? Warum wird es gerade jetzt interessant? Heli Helskyaho über die Ursprünge von ML und die heutigen Anforderungen an die Nutzung.

Dieser Artikel erschien zuerst im zweimonatlich erscheinenden ORAWORLD e-magazine, einer Publikation der EOUC mit spannenden Geschichten aus der Oracle-Welt, technologischen Hintergrundartikeln und Einblicken in andere User Groups weltweit.

 

 

ML ist ein äußerst wichtiger Bestandteil von künstlicher Intelligenz. Bereits 1959 beschrieb Arthur Samuel maschinelles Lernen als ein „Forschungsfeld, das Computern die Möglichkeit bietet, zu lernen, ohne explizit programmiert zu werden“. Anders ausgedrückt könnte man sagen, dass maschinelles Lernen ein systematisches Studieren von Algorithmen und Systemen ist, die ihr Wissen und ihre Leistung durch Erfahrung verbessern, und diese Erfahrung besteht aus Algorithmen und Daten.

Warum ML? Warum jetzt?

Einfach aus zwei Gründen: Erstens ist die Technologie endlich bereit für ML. Zweitens benötigen wir durch die überall verfügbaren Daten ML, um diese Daten überhaupt zu verstehen und richtige Entscheidungen auf ihrer Grundlage zu treffen. Kurz gesagt geht es um die großen „Vs“ von Big Data:

·         Volume (Datenvolumen):
Immer mehr Daten entstehen

·         Variety (Bandbreite der Datentypen und Quellen):
Es gibt unterschiedliche Datenmodelle und Formate

·         Velocity (Geschwindigkeit):
Noch während Daten geladen werden, läuft die Exploration der Daten

·         Veracity (Wahrhaftigkeit):
Nicht alle Daten sind vertrauenswürdig

·         Value (Wert), Viability (Funktionsfähigkeit), Variability (Variabilität):
Wir wissen nicht, wonach wir in den Daten suchen

·         Visualization (Visualisierung):
Das System muss auch nicht-technische Benutzer unterstützen (Journalisten, Investoren, Politiker)

Und da all dies äußerst effizient und schnell geschehen muss, haben wir keine andere Wahl, als Maschinen so viel wie möglich zu nutzen.

Wann sollten wir ML einsetzen?

Die erste Voraussetzung zur Nutzung von ML ist, dass wir ausreichend Daten in guter Qualität vorliegen haben. Die Maschine benötigt diese Daten, um gute Vorhersagen zu machen und zu lernen. Ein Teil der Daten wird zum Finden des Modells verwendet, und ein anderer Teil zur Prüfung, ob das Modell funktioniert. ML lässt sich am besten nutzen, wenn Regeln und Gleichungen komplex sind (Bilderkennung) und/oder sich häufig ändern (Betrugsaufdeckung). Typische Beispiele sind Spamfilter, Log-Filter und -Alarme, Datenanalyse, Bild- oder Spracherkennung, medizinische Diagnose und Robotik.

Der Prozess zur Verwendung von ML kann mit der Definition der „Aufgabe“ beginnen: Das Problem, das mit ML gelöst werden soll. Zur Lösung des Problems benötigen wir einen Algorithmus, der das „Modell“ erzeugt. Ein Modell ist die Ausgabe von ML. Es gibt unterschiedliche Modelle, z. B. vorhersagende Modelle („sagt vorher, was in der Zukunft geschehen könnte“), beschreibende Modelle („Was ist geschehen?“) und vorschreibende Modelle, die einen oder mehrere Vorgehensweisen vorschlagen und das wahrscheinliche Ergebnis jeder Entscheidung zeigen.

Ein sehr wichtiger Teil von ML sind Features und das Finden der besten Features für die Aufgabe. Features/Dimensionen sind „individuell messbare Eigenschaften oder Kennzeichen eines beobachteten Phänomens“. [1] Features ableiten (Feature-Engineering, Feature-Extraktion) ist einer der wichtigsten Aspekte beim maschinellen Lernen. Dabei werden Daten in Informationen umgewandelt, damit ein ML-Algorithmus sie nutzen kann.

ML in Kürze:

*         Nutze die richtigen Features

*         mit den richtigen Algorithmen,

*         um die richtigen Modelle zu erstellen,  

*         die die richtigen Aufgaben archivieren

Unüberwachtes und überwachtes Lernen

Bei ML gibt es zwei wesentliche Methoden oder Techniken: unüberwachtes und überwachtes Lernen. Unüberwachtes Lernen wird verwendet, wenn die Daten unbekannt oder nicht gekennzeichnet sind. Beispielsweise möchten wir bei Daten, über die wir nichts wissen, erfahren, ob es irgendwelche versteckten Muster oder spezifische Strukturen gibt. Überwachtes Lernen wird bei bekannten Daten verwendet. Wir trainieren ein Modell mit bekannter Eingabe und Ausgabe, um zukünftige Ausgaben für neue Eingabedaten vorherzusagen.

Die Clusteranalyse ist die häufigste Methode für unüberwachtes Lernen und wird für die explorative Datenanalyse verwendet, um versteckte Muster oder Gruppierungen in Daten zu finden. Es gibt zwei typische Clustering-Algorithmen: hartes und weiches Clustering. Beim harten Clustering gehört jeder Datenpunkt nur zu einem Cluster. Beim weichen Clustering kann jeder Datenpunkt zu mehr als einem Cluster gehören.

Beim überwachten Lernen gibt es zwei Prozessphasen: Die Trainingsphase und die Vorhersagephase. In beiden Phasen müssen die Daten aufbereitet werden, damit eine gute Qualität für die eigentliche Verarbeitung hergestellt wird. Typische vorhersagende Modelle für überwachtes Lernen sind Klassifizierung und Regression. Klassifizierungsmodelle werden trainiert, um Daten in Kategorien einzuteilen: Eine E-Mail ist echt oder Spam, ein Tumor ist klein, mittelgroß oder groß, eine Person ist kreditwürdig oder nicht. Regression wird hingegen zur Vorhersage von ständigen Antworten verwendet, z. B. bei Temperaturänderungen, Vorhersage von Aktienpreisen, Schwankungen beim Strombedarf oder Fehlervorhersagen bei Hardware.

Kontinuierliche Verbesserung

Nachdem das beste Modell mit den besten Features gefunden und in der Anwendung implementiert wurde, muss es eventuell verbessert werden. Vielleicht soll die Genauigkeit und die Vorhersagemöglichkeit verstärkt werden, um auch Daten bei Lärm zu erkennen, die Leistungsfähigkeit zu erhöhen oder andere gewünschte Maßnahmen zu verbessern. Um in der Lage zu sein, etwas zu verbessern, müssen Sie verstehen, was verbessert werden muss und wie es gemessen werden kann.

 

Interessiert am Thema Machinelles Lernen?

Dann kommen Sie zur DOAG 2018 Konferenz + Ausstellung! Die Autorin des Artikels, Heli Helskyaho, stellt auf der Konferenz die Grundlagen von ML noch einmal detailliert vor. Die Konferenz findet vom 20. bis 23. November in Nürnberg statt.

Weitere Infos und Anmeldung



[1] Bishop, Christopher (2006), Pattern Recognition and Machine Learning.