Hinweis: Die aktuelle TDWI-Konferenz finden Sie hier!

PROGRAMM

Die im Konferenzprogramm der TDWI München digital 2021 angegebenen Uhrzeiten entsprechen der Central European Time (CET).

Per Klick auf "VORTRAG MERKEN" innerhalb der Vortragsbeschreibungen können Sie sich Ihren eigenen Zeitplan zusammenstellen. Sie können diesen über das Symbol in der rechten oberen Ecke jederzeit einsehen.

Für alle, die eine alternative Darstellung bevorzugen bieten wir unser Programm-PDF an:
» Zum PDF-Download

Gerne können Sie die Konferenzprogramm auch mit Ihren Kollegen und/oder über Social Media teilen.

Schwimmen mit dem Strom – Real-Time ETL ohne Batchprozesse

ETL ist Batch: Effizienz, Datenkonsistenz, Nachvollziehbarkeit, Einfachheit, etablierte Methoden und ausgereifte Werkzeuge machen den Bau eines DWH zu einem Standard-Job.
Dabei ist Streamprocessing technisch kein Problem. Nur: Wie baut man komplexe fachliche Transformationen 'im Stream'? Wie sichert man Datenkonsistenz? Wohin mit der Datenhistorie? Wie geht das ressourceneffizient?

Der Vortrag zeigt an einem konkreten Projekt Verfahren, Werkzeuge, Vor- und Nachteile und die konkrete Umsetzung eines rein Event-getriebenen Data Warehouses.

Zielpublikum: Data Engineers, BI Project Manager
Voraussetzungen: Gutes DWH und ETL Knowhow
Schwierigkeitsgrad: Fortgeschritten

Extended Abstract:

ETL ist heute (noch?) immer eine reine Batch-Veranstaltung – und das aus gutem Grund: Effizienz und geringer Overhead, hohe Datenkonsistenz, Nachvollziehbarkeit, niedrigere Komplexität, etablierte Methoden und ein Fundus ausgereifter Werkzeuge machen den Auf- und Weiterbau eines Data Warehouses oder eines Data Lakes (fast schon) zu einem Standard-Job. Selbst die meisten 'Near-Real-Time' Prozesse (stündlich, viertelstündlich oder 5-minütlich) werden heute durch – kürzere, kleinere und häufiger ausgeführte – Batch-Jobs erledigt, nicht selten exotische 'Außenseiter' in der Riege der täglichen DWH Workflows.
Dabei ist doch zumindest eine zeitnahe Datenextraktion im Stream technisch kein großes Problem: Ob 'Log-based CDC', Json-Streaming via http oder das Abgreifen von Events aus Kafka ist weit verbreitet. Und auch das permanente Runterschreiben dieser Datenströme in Datenbanken ist kein Hexenwerk.
Wie aber implementiert man darauf komplexe, technische und fachliche Transformationen 'im Stream'? Wie sichert man Datenkonsistenz, wenn die Ankunft der Daten nahezu unvorhersagbar ist? Wie speichert man diese Datenströme – mit Datenhistorie für spätere Auswertungen – und wie kann man solche Prozesse noch ressourceneffizient umsetzen?
In diesem Vortrag zeigen wir anhand konkreter Projekte, welche Verfahren und Werkzeuge sich eignen, wo deren Vor- und Nachteile gegenüber klassischen Batch-Prozessen liegen und wie eine konkrete Umsetzung eines rein Event-getriebenen Data Warehouses aussehen kann.

Peter Welker verfügt über 30 Jahre IT-Projekterfahrung als Entwickler und Lösungsarchitekt. Bei Trivadis - Part of Accenture ist er heute Partner und Plattform-Architekt für Big Data und Data Warehousing. Als Autor verschiedener Fachbücher, regelmäßiger Referent und Keynote Speaker auf Data Warehouse- und Datenbankkonferenzen ist er mit diesen Themen seit Jahren bestens vertraut.

Peter Welker
11:10 - 12:20
Vortrag: Di 3.2

Vortrag Teilen