Hinweis: Die aktuelle TDWI-Konferenz findest Du hier!

CONFERENCE PROGRAM OF 2023

The times given in the conference program of TDWI München digital correspond to Central European Time (CET).

By clicking on "EVENT MERKEN" within the lecture descriptions you can arrange your own schedule. You can view your schedule at any time using the icon in the upper right corner.

Track: #Data Management

Nach Tracks filtern
Alle ausklappen
  • Dienstag
    20.06.
  • Donnerstag
    22.06.
10:40 - 11:25
Di 4.1
Datenmanagement & Python Good Practices für Wartbarkeit
Datenmanagement & Python Good Practices für Wartbarkeit

Python erfreut sich immer größerer Beliebtheit im Datenmanagement. Der Einstieg in Python mit Paketen wie dbt, pyspark, keras, pytorch ist einfach. Rapid Prototyping mit Notebooks und die ersten Codezeilen sind schnell entwickelt. Doch sobald der Code produktiv geht ... (und manche wären schon froh, wenn der Code überhaupt produktiv geht).

Die Session geht auf Pakete und Techniken rund um Code-Formatierung, Linting, Testing, Security, Dokumentation, Versionskontrolle ein, um das Datenmanagement mit Python auf ein neues Level zu bringen.

Zielpublikum: Data Engineers, Data Architects, Projektleiter:innen
Voraussetzungen: Grundkenntnisse in Python
Schwierigkeitsgrad: Einsteiger

Extended Abstract:
Python erfreut sich immer größerer Beliebtheit im Datenmanagement. Data Scientists, Data Engineers, ML Developer u. a. nutzen Python für eine Vielzahl von Funktionalitäten: von Datenimport über Datenintegration bis hin zu Machine Learning und Datenvisualisierung. Der Einstieg in Python ist einfach. Die ersten Codezeilen sind schnell entwickelt, doch sobald der Code produktiv geht (und manche wären schon froh, wenn der Code überhaupt produktiv geht) ...

Man spricht viel über die zahlreichen, coolen Pakete rund um das Datenmanagement: pyspark, dbt, pytorch, keras, GreatExpectations sind ein paar Beispiele. Doch was ist mit Software-Engineering und Code-Qualität? Und wie sieht es mit Notebooks aus? Schnelles Prototyping und dann ab in die Produktion damit?

Aber keine Sorge, mit den richtigen Paketen und Techniken gibt es Lösungen in Python. Die Session geht auf Pakete und Techniken rund um Code-Formatierung, Linting, Testing, Security, Dokumentation, Versionskontrolle ein, um das Datenmanagement mit Python auf ein neues Level zu bringen.

Andreas Buckenhofer arbeitet bei Mercedes-Benz Tech Innovation in Ulm als Lead Expert 'Vehicle Data Platforms'. Er verfügt über langjährige Erfahrung in der Entwicklung datenintensiver Produkte. Seine Schwerpunkte dabei sind insbesondere Datenarchitektur, Datenspeicherung, Datenintegration und Datenqualität.

Mehr Inhalte dieses Speakers? Schaut doch mal bei sigs.de vorbei: https://www.sigs.de/experten/andreas-buckenhofer/

Andreas Buckenhofer
E101/102
Andreas Buckenhofer
E101/102
Vortrag: Di 4.1
flag VORTRAG MERKEN

Vortrag Teilen

11:35 - 12:20
Di 4.2
Data Warehouse-Automatisierung – Erwartungen und Realität
Data Warehouse-Automatisierung – Erwartungen und Realität

Mehr Inhalte dieses Speakers? Kein Problem, schaut doch mal bei sigs.de vorbei: https://www.sigs.de/autor/dirk.lerner

Wie können immer wiederkehrende Aufgaben vereinfacht werden? Die Frage nach der Automatisierung von Datenlogistikprozessen in einem Data Warehouse beschäftigt heute die Projektteams. Der Wunsch nach einem umfassenden Automatisierungsprodukt ist dann meist sehr schnell da. Die Erwartungen sind hoch, die Enttäuschung (nach der Produktauswahl) nicht selten.

In dieser Session gibt Dirk Lerner einen Einblick in die Erwartungen der Projektteams, die Abläufe der Produktauswahl und die Realität.

Zielpublikum: Projektleiter:innen, Data Management Expert:innen, Data Engineers, Entscheider:innen, Produktauswahl-Teams
Voraussetzungen: keine
Schwierigkeitsgrad: Einsteiger

Extended Abstract:
Nicht wenige Data Warehouse (Data Solution)-Projektteams denken heute über die Automatisierung ihrer Datenlogistikprozesse nach. Wie kann man die immer gleichen Aufgaben vereinfachen, diese Prozesse einem Automatismus überlassen und dabei möglichst wenig wiederkehrenden Aufwand in die Entwicklung stecken? Der Wunsch nach einem umfassenden Automatisierungsprodukt für die Datenlösung kommt dann meist sehr schnell auf.

Mittlerweile gibt es viele solcher Produkte auf dem Markt: Etablierte, Newcomer und Eigenentwicklungen. Die Projektteams haben die Qual der Wahl. Und erleben nicht selten (nach der Produktauswahl) eine Enttäuschung.

In dieser Session gibt Dirk Lerner einen Einblick in die Erwartungen der Projektteams, die Abläufe der Produktauswahl und die Realität.

Dieser Vortrag enthält weder eine Empfehlung für ein bestimmtes Produkt noch wird es vom Referenten erwähnt oder bewertet!

Dirk Lerner ist ein unabhängiger und erfahrener Berater und Coach. Mit mehr als zwei Jahrzehnten Erfahrung in BI-Projekten ist er ein ausgewiesener Experte für BI-Architekturen, Datenmodellierung und temporale Daten. Dirk setzt sich für flexible, schlanke und leicht erweiterbare Data Warehouse-Architekturen ein.
Im Rahmen der TEDAMOH Academy coacht und trainiert Dirk in den Bereichen temporale Daten, Datenmodellierungszertifizierung, Datenmodellierung im Allgemeinen und Data Vault im Besonderen.
Als Pionier für Data Vault und FCO-IM in Deutschland hat er zahlreiche Publikationen veröffentlicht und ist ein hochgeschätzter internationaler Sprecher auf Konferenzen. Er ist Autor des Blogs https://tedamoh.com/blog.

Mehr Inhalte dieses Speakers? Schaut doch mal bei sigs.de vorbei: https://www.sigs.de/experten/dirk-lerner/

Dirk Lerner
E101/102
Dirk Lerner
E101/102
Vortrag: Di 4.2
flag VORTRAG MERKEN

Vortrag Teilen

13:50 - 14:50
Di 4.3
World Café: Data Mesh
World Café: Data Mesh

Data Mesh ist eine dezentrale Datenarchitektur, die viele Herausforderungen zu lösen verspricht. Im World Cafè „Data Mesh“ werden provokante Thesen und Fragestellungen zu diesem Ansatz in Kleingruppen diskutiert und anschließend die Ergebnisse allen vorgestellt. Ziel ist, dass sich die Teilnehmer selbst einbringen können und gleichzeitig ein differenziertes Bild auf ausgewählte Aspekte des Data Mesh-Ansatzes erhalten.

Prof. Dr. Peter Gluchowski hat an der Ruhr-Universität Bochum Mathematik mit den Schwerpunkten Stochastik und Operations Research (Dipl.-Math. und 1. Staatsexamen Lehramt) studiert und zum Dr. rer. oec. über "Simulation störanfälliger Systeme" promoviert (1985). Es folgten die Habilitation zum Thema "Entscheidungsunterstützungssysteme und Datenbanken" (1995) an der Abteilung Wirtschaftswissenschaft der Ruhr-Universität Bochum, Lehrstuhlvertretung (1993) und Berufung auf den Lehrstuhl Wirtschaftsinformatik und Operations Research (seit 2011 Lehrstuhl für Wirtschaftsinformatik, insbesondere Business Intelligence) an der Gerhard-Mercator Universität GH Duisburg (1995).

Dr. Gero Presser ist Mitgründer und Geschäftsführer der Dataciders GmbH, einem IT-Dienstleistungsunternehmen mit Fokus auf Data & Analytics und über 500 Mitarbeitern in Deutschland. Alle Dataciders eint die Vision, dass niemand jemals wieder schlechte Entscheidungen treffen muss.
Dr. Presser hat Informatik studiert, zu Entscheidungstheorie promoviert und ist u. a. im Vorsitz des TDWI Roundtable Ruhrgebiet, Dozent an der Hochschule Hamm-Lippstadt und Organisator der Meetup-Gruppe 'Business Intelligence & Analytics Dortmund' mit über 1.400 Mitgliedern.
Er ist leidenschaftlicher Skifahrer und glücklicher Familienmensch.

Peter Gluchowski, Gero Presser, Jörg Krempien
E101/102
Peter Gluchowski, Gero Presser, Jörg Krempien
E101/102
Vortrag: Di 4.3
flag VORTRAG MERKEN

Vortrag Teilen

15:20 - 17:00
Di 4.4
Data Vault 2.0 in CRM-Projekten
Data Vault 2.0 in CRM-Projekten

Die Modellierung von CRM-Daten mithilfe von Data Vault 2.0 ist eine typische Aufgabe in Enterprise Data Warehousing-Projekten. In diesem Beitrag stellen wir verschiedene Design Patterns aus unserer praktischen Erfahrung in diesen Projekten vor. Weiterhin gehen wir auf typische Herausforderungen mit CRM-Installationen ein und stellen unsere Best Practices in diesem Bereich vor. Der Beitrag basiert auf unseren internen Modellierungs-Empfehlungen für CRM-Systeme.

Zielpublikum: Data Vault 2.0-Anwender:innen, Data Warehouse-Entwickler:innen mit Interesse an Data Vault 2.0
Voraussetzungen: Diese Präsentation zielt auf Teilnehmer:innen mit Data Vault 2.0-Kenntnissen ab. Grundlegende CRM-Kenntnisse, insbesondere zu deren Datenmodellen, sind vorteilhaft.
Schwierigkeitsgrad: Fortgeschritten

Extended Abstract:
Die Entitäten der Data Vault 2.0-Modellierung (Hubs, Links, Satelliten) sind klar definiert - zumindest in der Theorie. In der Praxis steckt der Teufel jedoch manchmal im Detail. Daher wollen wir mit diesem Beitrag auf die Modellierung eines typischen Quellsystems, hier CRM, eingehen und verschiedene Standard-Muster vorstellen, die auf unseren Modellierungsempfehlungen basieren. Einfache Fälle wie Stammdaten (Kontakte, Organisationen, Produkte etc.) sollten schnell abgehakt sein, jedoch werden wir genau hinschauen, was auch hier die Fallstricke sind, und entsprechend diskutieren.

Als Nächstes dran sind die nicht veränderlichen (Bewegungsdaten) Daten. Hier wird es etwas komplizierter, denn nicht veränderliche CRM-Daten existieren vermutlich nicht mal in der Theorie. In der Realität können die meisten Daten verändert werden. Die daraus resultierenden Modellierungs-Entscheidungen werden durch die Vortragenden diskutiert, auch gerne in Interaktion mit dem Publikum.

Eine weitere Art von Daten, die häufig zu finden sind, sind die Belegpositionen. Auch hier ist eigentlich alles definiert, aber was passiert, wenn in den Daten keine Positionsnummer vorhanden ist? Oder Belege und deren Positionen mit der Zeit verändert werden? Auch hier gibt es einiges zu diskutieren.

Auswahllisten werden als Referenztabellen modelliert - soweit, so einfach. Doch was ist, wenn sich die Einträge in den Auswahllisten ändern, einige gelöscht oder neue hinzugefügt werden? In einer auditfähigen Umgebung? Was, wenn die Sortierreihenfolgen, die Standardfarben und Beschreibungen für die analytische Applikation unabhängig vom Quellsystem definiert werden sollen?

Mehrere Mandanten? Check.

Hoch-performante Umrechnung von Fremdwährungen in die Eigenwährung oder jede beliebige Währung? Check. Anwendung mehrerer fachlicher Zeitlinien? Check.

Value für das Publikum? Check.

Je nach verfügbarer Zeit beenden wir den Beitrag mit einer offenen Fragerunde ('Bring your own questions').

Markus Lewandowski ist Dozent an der Hochschule Hannover und Salesforce-Berater bei Scalefree. Er hat über 4 Jahre Erfahrung in der Salesforce-Entwicklung und Administration. Da er auch ein Certified Data Vault 2.0 Practitioner (CDVP2(TM )) ist, nimmt er eine hybride Rolle als Salesforce-Spezialist und DV 2.0 Practitioner ein. Seine Hauptkompetenzen sind Salesforce-Prozessautomatisierung, Anwendungsintegration und Datenmanagement.

Michael Olschimke ist Co-Founder, Dozent und Coautor des Buches 'Building a scalable data warehouse with Data Vault 2.0'.
Er hat mehr als 20 Jahre Erfahrung in IT und konzentriert sich auf Business Intelligence-Themen wie OLAP, Dimensional Modelling und Data Mining. Er ist für eine Reihe von Kunden in den Bereichen Automobil, Versicherungen, Banken und Non-Profit tätig. Er forscht unter anderem an MPP zum Aufbau von Systemen der künstlichen Intelligenz (KI) für die Analyse unstrukturierter Daten. Michael hat einen Master of Science in Information Systems von der Santa Clara University im Silicon Valley, Kalifornien.
 

Markus Lewandowski, Michael Olschimke
E101/102
Markus Lewandowski, Michael Olschimke
E101/102
Vortrag: Di 4.4
flag VORTRAG MERKEN

Vortrag Teilen

17:30 - 18:30
Di 4.6
Dashboards und DWH aus einer Hand – DWH Automation bei Pixum
Dashboards und DWH aus einer Hand – DWH Automation bei Pixum

Datenmanagement und Business Intelligence sind eng verwobene Bereiche, werden allerdings in vielen Unternehmen in separaten Teams und Abteilungen strukturiert. In diesem Vortrag wollen wir vorstellen, wie Pixum Data Warehouse Automation nutzt, um damit eine zentrale Anlaufstelle für Daten und Dashboards im Unternehmen bereitzustellen.

Zielpublikum: Entscheider:innen, IT-Architekt:innen, Data Engineers
Voraussetzungen: Basiswissen
Schwierigkeitsgrad: Einsteiger

Extended Abstract:
Datenmanagement und Business Intelligence sind eng verwobene Bereiche, werden allerdings in vielen Unternehmen in separaten Teams und Abteilungen strukturiert. Pixum wählt hier seit Jahren einen anderen Ansatz und verwaltet sowohl das Data Warehouse als auch die Business Intelligence in einem Team - dem Team 42. Um die große Komplexität einer solchen Umgebung in einem kleinen Team abbilden zu können, müssen die genutzten Tools die Mitarbeiter bestmöglich unterstützen. In diesem Vortrag wollen wir daher vorstellen, wie Pixum Data Warehouse Automation nutzt, um alle Daten-Ladeprozesse effizient zu steuern und eine zentrale Anlaufstelle für Daten und Dashboards im Unternehmen bereitzustellen. Dies unterstützt die datengetriebene Unternehmenskultur.

Christian Moke verantwortet den Bereich Finanzen und Controlling und beschäftigt sich bei Pixum seit über 11 Jahren mit dem rasant wachsenden Analysebedarf im Unternehmen. Aus der Rolle des Qlik-Anwenders sowie Entwicklers heraus hat er die effiziente Datennutzung durch gezielte Business Intelligence-Lösungen als einer der Datenpioniere bei Pixum auf ein neues Level gehoben.

Hendrik Gruß hat an der RWTH Aachen studiert und bringt sein umfangreiches Know-how als Informatik B.Sc./M.Sc. seit vier Jahren bei Pixum als Data Engineer ein.

Christian Moke, Hendrik Gruß
E101/102
Christian Moke, Hendrik Gruß
E101/102
Vortrag: Di 4.6
flag VORTRAG MERKEN

Vortrag Teilen

09:00 - 09:45
Do 3.1
Modern BI auf Wolke 7: Unter DSGVO-Aufsicht im Datenhimmel
Modern BI auf Wolke 7: Unter DSGVO-Aufsicht im Datenhimmel

BI-Plattformen in der Cloud ermöglichen es Unternehmen, große Datenmengen schnell und effizient zu analysieren. Insbesondere in Public Clouds stehen diesen Vorteilen meist Datenschutzbedenken gegenüber. Dieser Vortrag zeigt, wie Datenschutzanforderungen erfüllt werden können, ohne dabei große Kompromisse eingehen zu müssen. Anhand eines Use Cases wird aufgezeigt, wie ein klassisches DWH an eine moderne BI-Plattform in der Cloud angebunden werden kann, ohne dabei Daten im Klartext außerhalb des Unternehmens speichern zu müssen.

Zielpublikum: Geschäftsführer, BI-Analysten, IT-Verantwortliche
Voraussetzungen: Grundlegendes Know-how über BI-Plattformen und Cloud-Systeme
Schwierigkeitsgrad: Einsteiger

Extended Abstract:
Die digitale Welt ist schnell. Unternehmen geraten schnell unter Druck, wenn sie nicht in der Lage sind, sich an schnell verändernde Marktanforderungen anzupassen. Es sind daher meist die Fachabteilungen, die ein modernes Business Intelligence (BI) Tool fordern, um Daten sammeln, analysieren und visualisieren zu können. Sie benötigen jene Informationen, um das Unternehmen steuern und richtige Entscheidungen treffen zu können.

IT-Abteilungen sind dann meist diejenigen, die mit den daraus resultierenden immer schneller wachsenden fachlichen Anforderungen konfrontiert werden und technische Lösungen dafür bereitstellen sollen. Dabei sind stetig wachsende Datenmengen ebenso eine wesentliche Herausforderung wie unterschiedliche Datenformate. Insbesondere die immer größer werdende Bedeutung von Echtzeitdaten aus Streams oder semi- & unstrukturierte Daten aus IoT-Geräten haben dem oftmals über mehrere Jahre hinweg entwickelten und gepflegten klassischen Data Warehouse seine Grenzen aufgezeigt.

Ein möglicher Ansatz, diesen Herausforderungen zu begegnen, ist der Gang zu einem der großen Public-Cloud-Anbieter. Während die Möglichkeiten hinsichtlich der Skalierung von Ressourcen dabei helfen, mit ständig steigenden Datenmengen umgehen zu können, helfen diverse Managed Services dabei, unterschiedlichste Datenformate verarbeiten und konsolidieren zu können.

Schnell zum K.O.-Kriterium wird hierbei oft der Datenschutz. Besonders dann, wenn personenbezogene Daten verarbeitet werden müssen und diese Deutschland oder sogar die EU verlassen könnten, wird es kompliziert. Die meisten großen Public-Cloud-Anbieter bieten zwar mittlerweile Lösungen wie ein garantiertes Hosting in Deutschland, betrachtet man diese Option jedoch näher, wird man oftmals schnell enttäuscht: Datenspeicherung in Deutschland ja, Datenverarbeitung in Deutschland nur teilweise. Manche Services sind mit einem garantierten Betrieb in Deutschland sogar gar nicht verfügbar. Der Netzwerktraffic und über welche Knoten dieser läuft und vor allem, in welchen Ländern sich die Knoten denn befinden, ist das nächste Thema, was beachtet werden muss. Zugegeben: Das Thema neigt dazu, schnell zu einer akademischen Diskussion zu werden.

Eine ganz andere Frage, die sich jedes Unternehmen aber erst mal grundsätzlich stellen muss, ist: Möchte ich das überhaupt? Möchte ich, dass unternehmenskritische Informationen außerhalb meines Einflussbereiches gespeichert werden? Auch diese Diskussion kann man schnell in eine akademische Richtung bringen: Werden Daten nicht eh schon aus der Hand gegeben, sobald ich nicht selbst entwickelte Software einsetze? Ob großer Cloud-Anbieter oder lokales Rechenzentrum, liegt dazwischen nicht oftmals eh schon das Internet?

In diesem Vortrag werden keine akademischen Diskussionen geführt. Anhand eines konkreten Use Case aus der Praxis zeigen wir, wie sich Daten in der Cloud speichern und verarbeiten lassen, ohne dabei die Daten aus der eigenen Hand zu geben. Wir zeigen, wie Datenschutzanforderungen erfüllt werden können, ohne dass Anwender auf Features einer modernen BI-Plattform in der Cloud verzichten müssen.

Im Use Case dient ein klassisches, lokal betriebenes Data Warehouse als Quelle. Welche Datenbank- und ETL-Software im Einsatz ist, spielt keine gesonderte Rolle. Es wird aufgezeigt, wie eine gesicherte Übertragung der Daten auf einen Managed Service in der Cloud erfolgen kann. Konkret wird hier eine Azure SQL Database auf Microsoft Azure verwendet. Die Daten werden auf der Azure SQL Database verschlüsselt - also nicht im Klartext - gespeichert. Dies kann für die ganze Datenbank, für einzelne Tabellen oder auf Spaltenebene pro Tabelle erfolgen. Die Entschlüsselung der Daten findet erst zur Laufzeit während des Zugriffs eines Anwenders aus Microsoft Power BI heraus statt.

Worauf es dabei zu achten gilt, ist wie die Infrastruktur auf Microsoft Azure dafür aufgesetzt werden muss. Welche Software-Features und Services genau zum Einsatz kommen, ist ebenfalls Bestandteil dieses Vortrages.

Wolfgang Kettler leitet das Team BI & Reporting bei der ORDIX AG. Er verfügt über 12 Jahre Erfahrung im Bereich der Architektur komplexer Daten-Plattformen und BI-Anwendungen. Als Senior Chief Consultant berät er Kunden in den oben genannten Themenfeldern. In den letzten Jahren lag sein Fokus insbesondere auf der Migration bestehender On-premise-Lösungen auf moderne, skalierbare Cloud-Lösungen auf Microsoft Azure.

Wolfgang Kettler
K4
Wolfgang Kettler
K4
Vortrag: Do 3.1
flag VORTRAG MERKEN

Vortrag Teilen

09:55 - 10:40
Do 3.2
Eine Trigger-Architektur für optimierten UI-Lesezugriff
Eine Trigger-Architektur für optimierten UI-Lesezugriff

Um komplexe Metriken live bei Änderungen von Daten in einem Planungstool für den Anlagenbau anzeigen zu können, wurde eine 3-schichtige Architektur mit Datenbanktriggern entwickelt. Diese löst bestehende langsame Views ab, die zu langen Ladezeiten der UI führten. Eine Trennung von Datenselektion, Businesslogik und Schreibzugriff sorgt für strukturierten Code. Ebenso sorgt die exakte Selektion der Daten, die aktualisiert werden müssen, für effiziente Trigger. Probleme bei der Wartung werden über eine strukturierte Dokumentation gelöst.

Zielpublikum: Entwickler:innen, Datenbankentwickler:innen, Software-Architekt:innen
Voraussetzungen: Datenbankgrundlagen
Schwierigkeitsgrad: Einsteiger

Extended Abstract:
Bei der Entwicklung eines Planungstools für den Anlagenbau im Rahmen eines Kundenprojekts kam die Anforderung auf, dass komplexe Metriken basierend auf den aktuell eingegebenen Daten live aktualisiert werden. Im ersten Entwicklungsschritt wurde dies mithilfe von Datenbankviews umgesetzt. Steigende Datenmengen führten dazu, dass die Antwortzeiten der UI zu langsam wurden. Eine zeitlich versetzte Aktualisierung von vorberechneten Metriken war nicht möglich.

Als Lösung wurde eine 3-schichtige Architektur mit Datenbanktriggern implementiert. Die erste Schicht besteht aus den Triggern selbst, in denen bestimmt wird, was aktualisiert werden muss. Einerseits werden die Zeilen bestimmt, die aktualisiert werden müssen. Diese werden in einer In-Memory-Tabelle gespeichert. Andererseits werden auch die Spalten/Metriken bestimmt, die sich verändert haben können. Jede Metrik wird über eine Update-Prozedur repräsentiert. Die Trigger wählen also aus, welche Prozeduren aufgerufen werden müssen und welche Zeilen aktualisiert werden sollen. Durch die exakte Auswahl dessen, was aktualisiert werden muss, wird die Effizienz der Trigger verbessert.

Die Update-Prozeduren bilden die zweite Schicht und sind alle nach dem gleichen Prinzip aufgebaut. Sie erhalten als Eingabe die In-Memory-Tabelle mit den Ids der Zeilen, die aktualisiert werden müssen. Danach rufen sie die existierenden Views auf, in denen die Businesslogik abgebildet wurde, und aktualisieren die materialisierten Metriken für die selektierten Zeilen.

Die Wiederverwendung der existierenden Views ersparte bei der Entwicklung erheblich Zeit, da die komplexe Businesslogik nicht erneut implementiert werden musste. Die Trennung der Selektion der Zeilen im Trigger, der Schreibprozeduren und der Businesslogik verhindert Code-Duplikation. Der Grund dafür ist, dass Trigger auf unterschiedlichen Tabellen mit unterschiedlichen Selektionskriterien dieselbe Update-Prozedur aufrufen können. Aufgrund der Anzahl an Metriken und der Anzahl an Tabellen, die Einfluss auf die Metriken haben, wurde eine strukturierte Dokumentation eingeführt, um die Wartbarkeit zu gewährleisten.

Es wurde eine Performanceanalyse durchgeführt, inwieweit die Trigger den Lesezugriff durch Materialisierung der Daten beschleunigen und inwieweit die Trigger den Schreibzugriff verlangsamen. Die Trigger wurden so definiert, dass sie pro Statement ausgeführt werden, um Bulkoperationen effizient zu ermöglichen, da diese im System neben Einzeloperationen auch häufig vorkommen. Es stellte sich heraus, dass die Schreibprozesse im System während der Einführung der Trigger überarbeitet werden mussten. Die Schreibprozesse waren noch nicht dahingehend optimiert, dass sie mit möglichst wenig einzelnen Schreiboperationen arbeiteten. Es mussten also Schleifen im Code mit einzelnen Updates oder Inserts in Batch-Statements umgeschrieben werden.

Dr. Philipp Baumgärtel promovierte 2015 im Bereich Datenbanken an der FAU Erlangen-Nürnberg. Aktuell arbeitet er als Lead Consultant bei der PRODATO Integration Technology GmbH an Kundenprojekten mit Fokus auf Daten- und Anwendungsintegration.

Philipp Baumgärtel, Manuel Becker
K4
Philipp Baumgärtel, Manuel Becker
K4
Vortrag: Do 3.2
flag VORTRAG MERKEN

Vortrag Teilen

11:10 - 12:10
Do 3.3
Revolutionizing Data Integrity with Test-Driven Development
Revolutionizing Data Integrity with Test-Driven Development

This presentation will examine the creation of data products through ETL pipelines and the value they provide through insights. We'll focus on the advantages of test-driven development in ETL and how Azure DevOps and Databricks play key roles in the pipeline. We'll also cover the implementation of a Git-based CICD workflow to automate and guarantee the quality of the generated data products. By the end of the presentation, attendees will have a solid understanding of the benefits of test-driven development in ETL pipelines.

Target Audience: Data Engineer, Data Scientist
Prerequisites: Basic knowledge in ETL processes
Level: Basic

Extended Abstract:
In this presentation, we will discuss the process of generating data products through ETL pipelines to derive valuable insights. The use of test-driven development (TDD) will be a central theme, as we explore how this approach can help to ensure the accuracy and reliability of the data products generated. We will focus on the use of Azure DevOps and Databricks as key components in the pipeline, and how these technologies can be leveraged to provide efficient and streamlined data processing.

Additionally, we will explore the implementation of a Continuous Integration and Continuous Deployment (CICD) workflow using Git, which automates the development and deployment process, allowing for rapid iterations and reduced downtime. The use of Git also provides a reliable mechanism for version control and collaboration between team members.

One of the key highlights of the presentation will be the use of a test data generator powered by artificial intelligence. This tool will be used to generate realistic test data for use in the TDD process, ensuring that the pipeline code is thoroughly tested and ready for production deployment. This will be an important factor in ensuring the accuracy and reliability of the data products generated.

By the end of the presentation, attendees will have a comprehensive understanding of the benefits of TDD in ETL pipelines and how it can be used to produce high-quality data products that provide valuable insights. They will also gain an understanding of how Azure DevOps, Databricks, and Git can be used in conjunction with TDD to create a streamlined and efficient data processing workflow.

Jannik Wiessler is a Data Scientist and Data Engineer who has spent four years working for Daimler Truck AG. With an academic background in engineering, he also teaches computer science and programming in Python and C at DHBW Stuttgart. His experience and expertise in data analytics, machine learning, and programming have made a significant impact on the organization's success. Jannik is passionate about utilizing technology to drive innovation and efficiency, and he has a strong desire to share his knowledge with the next generation of engineers and data scientists.

Jannik Wiessler
K4
Jannik Wiessler
K4
Vortrag: Do 3.3
flag VORTRAG MERKEN

Vortrag Teilen

14:35 - 15:20
Do 3.4
Ist das ein ODS, Data-Lake oder irgendetwas dergleichen?
Ist das ein ODS, Data-Lake oder irgendetwas dergleichen?

Die DEVK setzt seit 2019 das Bestandssystem IPM für das Sachgeschäft ein. Für das notwendige Reporting und Analysen haben wir uns für eine quellsystemnahe Auswertungslösung entschieden. Diese nutzt die Besonderheit des IPM-Datenmodells, keine Datensätze zu verändern oder zu löschen sowie die zentrale Historisierung des Systems. Der Vortrag berichtet von unserem Vorgehen zur Ermittlung von Delta-Zeitscheiben für die Bewirtschaftung, der zweizeitigen Zeitraumhistorisierung und den zusätzlichen Tabellen zur Vereinfachung von Auswertungen.

Zielpublikum: Data Engineer, Entscheider:innen
Voraussetzungen: Grundlegende Datenbankkenntnisse
Schwierigkeitsgrad: Einsteiger

Seit 15 Jahren baut und betreut Jens Härtrich Auswertungslösungen vor allem im Versicherungsumfeld. In dieser Zeit ist er zum Schluss gekommen: Weniger in kurzer Zeit ist besser als mehr in einer ungewissen Zukunft. Simple Lösungen lassen sich auch mit kleinem Team in kurzer Zeit umsetzen und betreiben, wenn man seine Hausaufgaben in Bezug auf Auswertungsperformance und Historisierung gemacht hat.

Jens Härtrich
K4
Jens Härtrich
K4
Vortrag: Do 3.4
flag VORTRAG MERKEN

Vortrag Teilen

15:30 - 16:15
Do 3.5
Zweizeitige Historisierung mit Partitionierung und IOT
Zweizeitige Historisierung mit Partitionierung und IOT

Will man Daten unter Berücksichtigung einer zweizeitigen Historisierung mit Von- und Bis- Zeiträumen ablegen, kann man dies durch Hinzufügen der Historien-Felder an die Nutzdaten oder durch Auslagerung der Historieninformationen in einer separaten Tabelle erreichen. Der Vortrag gibt eine Einführung in die Grundlagen der bi-temporalen Historisierung und beleuchtet die Vor- und Nachteile beider Verfahren unter Berücksichtigung der Abfrageperformance unter Oracle.

Zielpublikum: Data Engineer, Data Scientist, Analyst:innen
Voraussetzungen: Grundlegende SQL-Kenntnisse
Schwierigkeitsgrad: Fortgeschritten

Seit 15 Jahren baut und betreut Jens Härtrich Auswertungslösungen vor allem im Versicherungsumfeld. In dieser Zeit ist er zum Schluss gekommen: Weniger in kurzer Zeit ist besser als mehr in einer ungewissen Zukunft. Simple Lösungen lassen sich auch mit kleinem Team in kurzer Zeit umsetzen und betreiben, wenn man seine Hausaufgaben in Bezug auf Auswertungsperformance und Historisierung gemacht hat.

Jens Härtrich
K4
Jens Härtrich
K4
Vortrag: Do 3.5
flag VORTRAG MERKEN

Vortrag Teilen

Zurück