In jedem großen Datenmanagement-Projekt muss eine Vielzahl von DI-Prozessen in homogener Qualität entwickelt und schließlich effizient betrieben werden. Der erste wesentliche Schritt ist die Entwicklung von Lösungsmustern (Patterns) für gleichartige Aufgaben. Dabei darf die Standardisierung nicht Funktionsumfang und Handhabung des eingesetzten Toolsets einschränken. Der zweite und folgerichtige Schritt ist die Instanziierung der flexiblen Patterns durch einen metadatengetriebenen Ansatz. Wir stellen das Grundproblem und eine vollständig automatisierte Vorgehensweise vor, die nach dem besten Verhältnis von Standardisierung und Flexibilität, Qualität und Effizienz strebt.
Zielpublikum: CIO, CDO, CTO, BI/DWH-Entscheider, ICC-Manager, -Programm- und Projektleiter, -Architekten und -Entwickler
Voraussetzungen: grundlegende Kenntnisse in Daten- und Informationsmanagement,
Expertise in den Bereichen Data-Warehouse-, Data-Lake-Konzeption, Architektur und Modellierung ist vorteilhaft
Schwierigkeitsgrad: Fortgeschritten
Extended Abstract
'Sie haben die Aufgabe, eine Plattformarchitektur für Datenintegration zu bauen, z.B. im Rahmen eines Data Warehouse, einer Datendrehscheibe oder eines Data Lakes oder einer Kombination hieraus. Dabei konzentrieren Sie sich auf die grundlegende Architektur: Systementwurf, Haupt- und Unterkomponenten, Standardisierung, Konventionen.
Die Analyse ergibt zumeist, dass sich die Aufgaben in bestimmte wiederkehrende Verarbeitungsmuster (Patterns) eingliedern lassen: im Data Warehouse z. B. in Landing, Staging, (bi-)temporale Historisierung von Dimensionen, Links und Fakten, spezielle Aggregationen oder im Data Lake in Landing, Anwendung eines Schemas, Übersetzung in anwendungsadäquate Formate wie Parquet, Avro etc. bis hin zur Anreicherung für spezifische Use Cases.
Die verschiedenen Verarbeitungsschritte müssen nun vielfach auf die aus der Anforderungsanalyse abgeleiteten Entitäten umgesetzt werden. Ihre Aufgabe ist es, viele gleichartige Prozesstypen in kurzer Zeit bei gleichbleibender Qualität und beherrschbaren Testaufwänden unter herausfordernden Zeit- und Budgetvorgaben zu liefern. Die Manufaktur bedingt unter den Zeitvorgaben ein großes Projektteam. Hier besteht die Gefahr einer heterogenen Entwicklung mit Abweichungen von Ihren Standards: eine Anforderung mit vielen verschiedenen Vorgehensweisen und Individuallösungen und entsprechend individualisierten Tests und schwieriger Projektkommunikation. Spät vorgebrachte Anforderungen erzwingen einen enormen Refactoring-Bedarf. Der Vorteil eines Datenintegrations-Tools kann nicht voll ausgespielt werden.
Ob Onshore oder Offshore - ein großes Projektvorhaben erfordert Zeit und viel Geld. Einen Ausweg kann nur die Standardisierung und Automatisierung bieten. In der Industrie hat sich dabei das folgende Vorgehen durchgesetzt:
1. Abstraktion:
Entlang der Anforderungen wird ein Muster-Prozess (Pattern) entworfen. Ein Pattern implementiert die gewünschte Funktionalität und legt funktionale Rollen jenseits von Instanz-Eigenschaften und Datentypen fest.
2. Konkretisierung:
Konkrete Prozess-Instanzen werden erfasst. Instanz-Metadaten definieren Entitäten, Felder, Feldgruppen in ihren Ausprägungen und Feldeigenschaften (Datentypen, Größen, etc.) und die funktionalen Rollen werden zugewiesen.
3. Instanziierung:
Ausführbare Prozess-Instanzen werden vollautomatisiert als Produkt von Pattern- und Instanz-Metadaten entsprechend der funktionalen Rollen und der im Pattern generisch implementierten Funktionalität erstellt.
Im Vortrag wird der 'State-Of-The-Art' in der standardisierten und automatisierten Entwicklung von Datenintegrationsprozessen und Big-Data-Pipelines beleuchtet.