TDWI Konferenz 2020

TDWI München will return in 2021

Sessionsdetails

Vortrag: Mi 3.3
Datum: Mi, 28.10.2020
Uhrzeit: 15:10 - 16:40
cart

Cloudbasierte Echtzeit-Daten-Replikation mit Apache Kafka

Uhrzeit: 15:10 - 15:55
Vortrag: Mi 3.3 1)

 

Mit Apache Kafka kann eine datenbank- und SQL-Dialekt-unabhängige Cloud-Replikationslösung implementiert werden. Bestehende On-Prem-DWH-Systeme können so zu flexiblen und hochskalierbaren Hybrid-Architekturen erweitert werden. Die Echtzeit-Replikation mit Änderungsdatenerfassung wird hierbei durch Kafka Connect on Azure realisiert.

Zielpublikum: System-Architekten, BI-Analytiker, BI-Spezialisten, Data-Warehouse-Verantwortliche Administratoren, IT-Leiter, DWH-Leiter
Voraussetzungen: Erfahrungen in Datenmanagement / DWH-Architektur sind notwendig, Erste Erfahrungen bei der Nutzung von Open Source sind von Vorteil
Schwierigkeitsgrad: Advanced

Extended Abstract
Zahlreiche Unternehmen arbeiten heute noch mit DWH-Strukturen, die Ende der 1990er oder in den frühen 2000er Jahren konzipiert und implementiert wurden. Die Systeme zeichnen sich als robust und für die gängigen Anforderungen auch als performant aus. Verändern sich die Anforderungen, insbesondere in Richtung Big Data, wo Granulardaten - zunehmend auch Streaming Data - aus Fachbereichen genutzt werden sollen, stoßen jene klassische Architekturen schnell an ihre Grenzen.
Sehr häufig entsteht so die Situation, dass auf der einen Seite eine batchweise ('langsame') Verarbeitung von On-Prem-Daten im DWH erfolgt, während parallel dazu neue, cloudbasierte Data-Streaming Systeme genutzt werden.
In unserem Vortrag zeigen wir eine Möglichkeit, wie die oben beschriebene 'Silo'-Situation aufgebrochen und möglichst viele Synergie-Effekte aus dem Bereich der klassischen DWH Architekturen und modernen cloudbasierten Architekturen genutzt werden können. Mit Apache Kafka als Plattform kann eine 'klassische' ETL-basierte Architektur um eine flexible und hochskalierbare Hybrid-Architektur ergänzt und modernisiert werden. Ein radikaler 'Bruch' im Bereich der Datenintegration kann so vermieden werden. Bestehende Ressourcen in On-Prem-Systemen können gezielter genutzt und gleichwohl die Vorzüge von hochskalierbaren Services in Cloud-Systemen in Anspruch genommen werden.

 

Wie sauber ist die Luft von morgen? - Schnellstart Data Science mit einer offenen Cloud-Lösung

Uhrzeit: 15:55 - 16:40
Vortrag: Mi 3.3 2)

 

Um Erfahrungen mit dem Aufbau einer cloudbasierten Analytics-Lösung zu sammeln, haben wir das Data Science Lab entwickelt. Hiermit kombinieren wir flexibles Data-Mgmt. und advanced Analytics; am Beispiel von IoT-Daten des DWD und luftdaten.info.

Zielpublikum: Data Science-Entwickler und -Analysten, BI-Berater und IT-Verantwortliche
Voraussetzungen: Basiswissen in BI und Data Science
Schwierigkeitsgrad: Fortgeschritten

Extended Abstract
Inspiriert von der Idee, eine leistungsfähige, flexible und leicht zu wartende Data Science-Infrastruktur zu schaffen, die unseren Partnern den preiswerten Schnelleinstieg in Data Science bzw. Big Data ermöglicht, haben wir das 'Data Science Lab' in der Cloud gebaut.
Das Data Science Lab ist als offene Lösung konzipiert, mit dem Ziel, den Prozess von der Idee bis zum implementierten und visualisierbaren Datenprodukt zu unterstützen. Es ermöglicht das Laden, Transformieren, Analysieren und z. B. Vorhersagen von Daten auf sehr einfache und leistungsfähige Weise. Dazu kombiniert das Lab eine Reihe von leistungsfähigen Tools (Talend, Exasol) und Services, die auf der AWS laufen.

Um die Effizienz der Lösung am Beispiel aufzuzeigen, verwenden wir die Daten des Open-Data-IoT-Projekts 'luftdaten.info'. Dieses trägt öffentliche, fein granular verfügbare Sensordaten zur Luftgüte zusammen und ist für uns die Basis, um verlässliche Vorhersagen zur Luftqualität von morgen zu treffen.