KONFERENZPROGRAMM

Data Lineage Compilation - Automatisierte Lineage-Rekonstruktion codebasierter ETL-Strecken

Viele Unternehmen verfügen über komplexe ETL-Landschaften, deren Data Lineage nicht vollständig dokumentiert ist. ETL-Tools wie Talend erzeugen hunderte Pipelines, deren tatsächliche Datenflüsse erst zur Laufzeit sichtbar werden. Diese Session präsentiert ein technisches Konzept zur automatisierten Extraktion von Data Lineage aus Quellcode-Artefakten und zur Repräsentation der Lineage-Entitäten im Datenkatalog. Dieses konnte erfolgreich gegen die Java-basierten Datenverarbeitungsstrecken der HUK-COBURG validiert werden.

Zielpublikum: Data Governance Enthusiasten / Data Catalog Manager
Voraussetzungen: Software Engineering / Data Engineering / Data Governance
Level: Advanced

Extended Abstract:
Viele Unternehmen, darunter auch die HUK-COBURG, betreiben umfangreiche und historisch gewachsene Datenverarbeitungslandschaften, deren Komplexität eine transparente Nachvollziehbarkeit der Datenflüsse erheblich erschwert. Unterschiedliche ETL-Paradigmen, heterogene Verarbeitungskomponenten und vielfältige Transformationslogiken – etwa Datenextraktionen aus verschachtelten JSON-Strukturen oder individuelle Ausdruckslogiken – führen dazu, dass klassische Lineage-Ansätze, die auf Metadaten oder Laufzeitinformationen basieren, nur begrenzte Ergebnisse liefern. Für eine konsistente End-to-End-Betrachtung war daher ein Ansatz erforderlich, der unabhängig von konkreten Tools oder Laufzeitumgebungen funktioniert und die Lineage direkt aus dem Quellcode der Prozesse ableitet.

In diesem Vortrag wird ein evaluiertes Konzept vorgestellt, das einen Compiler-ähnlichen Ansatz zur Data Lineage-Extraktion verfolgt. Im Zentrum steht die Idee, Verarbeitungspipelines zunächst in eine abstrakte syntaktische Repräsentation zu überführen, die alle logischen Operationen, Transformationen und Abhängigkeiten auf einer einheitlichen Abstraktionsebene vereint. Diese neutrale Struktur ermöglicht ein konsistentes Parameter Resolving sowie die systematische Identifikation und Typisierung aller relevanten Lineage-Entitäten, ohne auf die tatsächliche Ausführung der Pipelines oder proprietäre Interpretationslogiken angewiesen zu sein.

Auf dieser Grundlage entstehen generische, technologieunabhängige Lineage-Informationen, die die Beziehung zwischen Datenobjekten, Transformationen und abhängigen Komponenten formalisiert. Diese können durch eine selbstverwaltete Graph-Engine oder durch integrierte Funktionen von Metadatenkatalogen in einen gerichteten Data Lineage-Graphen überführt werden.

Die Validierung des Ansatzes konnte erfolgreich anhand der Java-basierten Datenverarbeitungsstrecken der HUK-COBURG durchgeführt werden und zeigt, dass selbst komplexe, historisch gewachsene Verarbeitungssysteme über ein solches Konzept präzise und vollständig rekonstruierbar sind – selbst dann, wenn Modellierungsinformationen unvollständig, heterogen oder fragmentiert vorliegen.

HUK-COBURG
Data Engineer

Mario Drack arbeitet seit zwei Jahren als Data Engineer bei der HUK-COBURG und entwickelt dort Java-basierte Real-Time-Streamingapplikationen und DWH-Anwendungen. Mit einem Master in Data Science, mehrjähriger Erfahrung als Full-Stack-Developer und einer Vorliebe für Cloud- und Big-Data-Technologien versucht er, komplexe Anforderungen in modulare und skalierbare Lösungen umzusetzen.

Mario Drack
17:05 - 17:50
Vortrag: Mi 2.5

Vortrag Teilen