PROGRAMM

Die im Konferenzprogramm der TDWI München 2023 angegebenen Uhrzeiten entsprechen der Central European Time (CET).

Per Klick auf "VORTRAG MERKEN" innerhalb der Vortragsbeschreibungen kannst du dir deinen eigenen Zeitplan zusammenstellen. Du kannst diesen über das Symbol in der rechten oberen Ecke jederzeit einsehen.

Hier kannst Du die Programmübersicht der TDWI München 2023 mit einem Klick als PDF herunterladen.

Datenpipelines, Dokumentation und Lineage mit SQL & dbt

SQL ist nicht wegzudenken aus der Datenanalyse. In der Realität findet man dann häufig das Pattern: Python Glue Code in Notebooks, der SQL Statements ausführt. dbt (data build tool) hilft dabei, SQL-Datenpipelines strukturiert aufzubauen, inkl. Validierung der Daten, Dokumentation & Abhängigkeitsgraphen. Die Automatisierung von Datenaufbereitungen und Analysen gelingt so ganz einfach.

Zielpublikum: Data Engineer, Data Architect
Voraussetzungen: Grundlagen SQL/Python sind hilfereich
Schwierigkeitsgrad: Fortgeschritten

Extended Abstract:
SQL ist weiterhin nicht wegzudenken aus der Datenanalyse - es ist vergleichsweise einfach zu lernen und kann ohne zusätzliche Werkzeuge auf einer Datenbank ausgeführt werden. Entsprechend ist es bei vielen Datenanalysten sehr beliebt. Es hat aber auch Schwächen, die besonders im Vergleich zu Python auffallen. Neben den bekannten ML-Frameworks gibt es in Python auch für Datenpipelines eine Reihe von Werkzeugen, sowohl zur Datenvalidierung als auch Orchestrierung. Dinge, die mit SQL allein gar nicht oder nur mühselig abzubilden sind.

SQL für Transformationen möchte man nicht aufgeben. Allerdings befindet man sich heute auch als Data Analyst immer mehr in der Python-Welt wieder. Bei Datenplattformen ist Python oft der Standard für jegliche Verarbeitung von Daten. Und auch die Data Engineers wollen lieber Python als SQL schreiben. Da mit SQL aber vergleichsweise gut Transformationen auf Daten ausgedrückt werden können, findet man dann häufig folgendes Pattern: Python Glue Code wird geschrieben, der dann SQL Statements ausführt. Und das Ganze im Extremfall auch noch verteilt über Notebooks.

dbt (data build tool) ist ein Kommandozeilentool, um mit SQL solche Datenpipelines strukturiert aufzubauen. Ebenso ermöglicht es, die Validierung der Daten direkt mit zu erledigen. Auch bei der Historisierung von Stammdaten, die regelmäßig aus operativen Systemen abgezogen werden, hilft es. Als Ergebnis gibt es nicht nur saubere & gefüllte Tabellen in einer Datenbank, sondern auch noch Dokumentation und Abhängigkeitsgraphen. Das Ganze hilft nicht nur beim Aufbereiten von Daten. Auch die darauf folgenden, regelmäßigen Analysen und Auswertungen lassen sich so bequem automatisieren. Inklusive Rückverfolgbarkeit, welche Analyse welche Daten benutzt. Und wenn die Basisdaten inhaltliche Fehler aufweisen, werden die Auswertungen, die darauf basieren, gar nicht erst aktualisiert.

Matthias Niehoff

codecentric AG
Head of Data

Matthias Niehoff works as Head of Data and Data Architect for codecentric AG and supports customers in the design and implementation of data architectures. His focus is not so much on the ML model, but rather on the necessary infrastructure and organization to help data science projects succeed.

Matthias Niehoff

Track: #Data Architecture

09:55 - 10:40

Vortrag: Do 4.2

Vortrag Teilen