Hinweis: Die aktuelle TDWI-Konferenz findest Du hier!

CONFERENCE PROGRAM OF 2023

The times given in the conference program of TDWI München digital correspond to Central European Time (CET).

By clicking on "EVENT MERKEN" within the lecture descriptions you can arrange your own schedule. You can view your schedule at any time using the icon in the upper right corner.

Der Cloud Data Lake als Enabler für Analytics @ Hapag Lloyd

Auf dem Gesamtweg in die Cloud hat Hapag-Lloyd seine analytischen Fähigkeiten gestärkt, indem es eine zentrale Datenspeicherung ('Data LAKE') eingeführt hat und so Herausforderungen im Zusammenhang mit On-Premise-Lösungen überwunden und weitere Anwendungsfälle und Analysen ermöglicht hat. Die Präsentation wird auf die gemeisterten Herausforderungen und die direkten Vorteile aus dem Übergang in die Cloud eingehen.

Zielpublikum: Entscheider:innen, Product Specialists, Data Analysts, Data Scientists
Voraussetzungen: Grundlegendes analytisches Wissen, Grundlagen von Cloud-Umgebungen
Schwierigkeitsgrad: Einsteiger

Extended Abstract:
Als eine der führenden Reedereien hat Hapag-Lloyd schon immer einen starken Fokus auf eine starke IT-Infrastruktur für den Betrieb und die Analyse gelegt - insbesondere die Nutzung von Daten, um Erkenntnisse, Dashboards und konkrete Maßnahmen zu generieren.

Mit immer mehr verfügbaren und zugänglichen Daten wird es immer deutlicher, dass die Fähigkeit, diese handlungsorientiert, sichtbar und in Produkte umzusetzen, ein entscheidender Erfolgsfaktor in der Schifffahrtsindustrie ist.
Angesichts der bevorstehenden neuen Herausforderungen hat Hapag-Lloyd beschlossen, die IT-Landschaft in die Cloud zu verlagern und ein enormes Projekt zur Migration, Überprüfung, Neubewertung und Innovation der gesamten IT-Landschaft in Richtung einer vollständig Cloud-basierten Infrastruktur zu starten.
Als eine der ersten Erfolgsgeschichten hat Hapag-Lloyd das Cloud-basierte Produkt 'Data Lake' aufgebaut. Das Produkt selbst ist zum zentralen Speicher für Analytics geworden und stellt alle relevanten Daten aus verschiedenen Datenquellen für die Analyse bereit.

Mit der Cloud-basierten Infrastruktur verschwanden die früheren Speicherlimitationen, was von einem Use-Case-getriebenen Ansatz zu einer Plattform führte. Daten werden also nicht mehr erhoben, sobald sie für eine Analyse gebraucht werden, sondern generell gesammelt, um für Analysen bereitzustehen.
Zunächst war der Fokus auf den Datenimport von den vorhandenen Kern-IT-Systemen in die Cloud gerichtet. Sobald die Daten in die Cloud geladen waren, ermöglichte dies eine dezentralisierte Analyse, mit der sich auch der Zugang zu den Daten signifikant veränderte und nun eine spezialisierte Benutzergruppe eingeführt wurde, die den Zugang zu allen verfügbaren Daten im Data Lake ermöglichte. Für diese Benutzergruppe wurde eine sichere Umgebung geschaffen, die den GDPR-Richtlinien entspricht. Alle personenbezogenen Informationen sind im Data Lake maskiert, wobei ein besonderer Schwerpunkt auf den Mitarbeiterdaten liegt, um die Möglichkeit zur Erstellung von Performance-Analysen auf Mitarbeiterbasis zu deaktivieren.
Darüber hinaus wurde das verfügbare Datenformat auch auf 'Change Data Capture' (CDC) geändert, was weitere Analysen ermöglichte (z. B. Verfolgung jeder Änderung an einem Versand, Schiff oder Container).

Die Einführung der spezialisierten Benutzergruppe im gesamten Unternehmen reduzierte die Abhängigkeit von verschiedenen IT-Teams und ermöglichte es den Benutzern, noch schneller von den Daten Erkenntnisse und Vorteile zu ziehen.
Die wichtigsten unterstützenden Technologien in der AWS-Cloud sind S3 als Speicher, Athena als Abfrage-Engine auf den S3-Daten, Glue als unterstützendes Tool zur Verbindung der S3-Daten mit Athena und Step-Functions zur Orchestrierung der Verarbeitung.
Neben der Einführung des Data Lakes war es essenziell, auch unterstützende Tools wie das Meta Data Management Tool einzuführen, um den Anwender zu führen und um Datenrelation und -zusammenhänge darzustellen.

Robert Ziegltrum ist aktuell Senior Data Scientist für Smart Container Analytics bei Hapag-Lloyd, zuvor verantwortlich als Product Owner für den Aufbau des zentralen Hapag-Lloyd Data Lakes. Seit über 10 Jahren im Data- und Analytics-Umfeld tätig mit dem Fokus auf (Data-)Produktentwicklung, Data Science und Big Data. 

Robert Ziegltrum
09:00 - 09:45
Vortrag: Do 4.1

Vortrag Teilen