Einsatz von Ähnlichkeitsmetriken zur Objektidentifizierung

Die Attribute zur Beschreibung von Musikwerken sind heute nicht international genormt und daher kommt es vor allem in der Online-Musiknutzung häufig vor, dass Musikwerke in Online-Plattformen wie Spotify und Apple Music nicht eindeutig identifizierbar sind. Dies erschwert eine automatisierte Verarbeitung und es stellt für die Abrechnung von Musiknutzungen ein größeres Problem dar. Dubletten müssen insbesondere von zuständigen Verwertungsgesellschaften erkannt werden. Dazu bedarf es effizienter Algorithmen zur Objektidentifikation. In dieser Arbeit wird ein Vergleich verschiedener Algorithmen wie Damerau-Levenshein, Jaro-Winkler, Smith-Waterman u.a. zur Objektidentifikation bei Musikwerken durchgeführt. Da es sich um sehr rechenintensive Algorithmen handelt, wurden die Algorithmen für eine Massenverarbeitung in einem Apache Hadoop-Cluster unter Nutzung von MapReduce-Mechanismen adaptiert. Ein umfangreicher Vergleichsdatensatz wurde mit Apache HBase verteilt gespeichert. Sowohl die Qualität der Dublikatserkennung als auch die Leistung wurde gemessen. Die wesentliche Erkenntnis des Vergleichs war, dass die sehr häufig verwendete Levenshtein-Distanz nicht die beste Wahl ist. Durch den Einsatz anderer Algorithmen, beispielsweise die Verwendung der Jaro-Winkler-Distanz sind bessere Ergebnisse erzielbar und zwar sowohl bei der Zuordnungsqualität als auch bei der Verarbeitungsgeschwindigkeit.

Dienstag, 21.11.2017
17:00 - 17:45
Riga
Fortgeschrittene
Deutsch
Data Analytics
Lindner

Tobias Lindner

Tobias Lindner hat Wirtschaftsinformatik mit dem Schwerpunkt Daten- und Informationsmanagement an der Hochschule für angewandte Wissenschaften München studiert. Vor seinem Studium absolvierte er bei einem weltweit führenden Anbieter von hochdynamischen Lager-, Materialfluss- und Logistik-Lösungen eine Ausbildung zum Fachinformatiker mit der Fachrichtung Anwendungsentwicklung. Aktuell ist Tobias Lindner als BigData Experte / BigData Architekt bei der ESG GmbH angestellt und dort vor Ort beim Kunden - der BMW Group - tätig.

Weitere Vorträge, die Sie interessieren könnten