Konzeption und Entwicklung einer Datenpipeline zur automatisierten Validierung und Verarbeitung von Bankdaten am Beispiel der Mittelstand.ai

Authors

  • Stani Lennart Schlegel TH Mittelhessen (THM)
  • Harald Ritz TH Mittelhessen
  • Michel Becker Mittelstand.ai GmbH & Co. KG

DOI:

https://doi.org/10.26034/lu.akwi.2022.3357

Keywords:

Data Engineering, Data Warehousing, Data Science, Apache Spark, Data Governance

Abstract

Durch die Digitalisierung im Bankensektor ergeben sich verschiedene Möglichkeiten der Verwertung von Daten. Ein Beispiel ist die Vertriebssteuerung anhand von Data-Science-Analysen und ML-Modellen.

Diese Thesis beschäftigt sich damit, eine Datenpipeline anhand von definierten Datenqualitätsrichtlinien zu implementieren. Es wird eine automatisierte Validierung der Qualität von Bankdaten anhand eines konkreten Anwendungsfalls umgesetzt.

References

Cai, Li; Zhu, Yangyong: The Challenges of Data Quality and Data Quality Assessment in the Big Data Era, Data Science Journal, 2015

Gluchowski, Peter: Data Governance: Grundlagen, Konzepte und Anwendungen, Heidelberg: dpunkt.verlag, 2020

Provost, Foster; Fawcett, Tom: Data Science for Business, Sebastopol: O'`Reilly Media Verlag, 2013

Salloum, Salman; Dautov, Ruslan; Chen, Xiaojun; Xiaogang Peng, Patrick; Zhexue Huang, Joshua: Big data analytics on Apache Spark, 2016, URL: https://link.springer.com/content/pdf/10.1007/s41060-016-0027-9.pdf (Abruf am 05.04.2022)

Downloads

Published

2022-12-24

Issue

Section

Theses