Verarbeitung komplexer XML-basierter Massendaten in BigData-Anwendungen

Max-Emanuel Keller; Peter Mandl; Alexander Döschl; Daniel Kailer; Markus Grimm

doi:10.26034/lu.akwi.2017.3181

Authors

Max-Emanuel Keller
Peter Mandl
Alexander Döschl
Daniel Kailer Hochschule München
Markus Grimm

DOI:

https://doi.org/10.26034/lu.akwi.2017.3181

Abstract

XML ist ein semi-strukturiertes Datenbeschreibungsformat, das aufgrund weiter Verbreitung und steigender Datenmengen auch als Eingabeformat für eine BigData-Verarbeitung relevant ist. Der vorliegende Beitrag befasst sich daher mit der Nutzung komplexer XML-basierter Datenstrukturen als Eingabeformat für BigData-Anwendungen. Werden umfangreiche komplexe XML-Datenstrukturen mit verschiedenen XML-Typen in einer zu verarbeitenden XML-Datei beispielsweise mit Apache Hadoop verarbeitet, kann das Einlesen der Daten die Laufzeit einer Anwendung dominieren. Unser Ansatz befasst sich mit der Optimierung der Eingabephasen, indem Zwischenergebnisse der Verarbeitung im Arbeitsspeicher abgelegt werden. Der Aufwand für die Verarbeitung reduziert sich damit zum Teil erheblich. Anhand einer Fallstudie aus der Musikbranche, in der standardisierte XML-basierte Formate wie das DDEX-Format genutzt werden, wird experimentell gezeigt, dass die Verarbeitung mit unserem Ansatz im Vergleich zur klassischen Abarbeitung von Dateiinhalten deutlich effizienter ist.

Processing complex XML-based mass data in BigData-applications

Authors

DOI:

Abstract

Downloads

Published

Issue

Section

License

Language

Information

Make a Submission