Smart Container Analytics bei Hapag-Lloyd
Die Hapag-Lloyd AG hat sich als First-Mover entschieden, ihre gesamte Containerflotte mit Tracking Devices auszustatten, wodurch die Position in regelmäßigen Intervallen verfolgt werden kann. Durch die neu-generierten Daten ergeben sich spannende Analytics-Anwendungsfälle, technische Herausforderungen für die Dateninfrastruktur und Herausforderungen bei der Verarbeiten der „Big data“-Geo-Daten. In dem Vortrag werden die Analytics Platform, Methodiken und einige der Anwendungsfälle vorgestellt.
Zielpublikum: Data Analysts, Data Scientists, Data Architecture, Logistik
Voraussetzungen: Wissen zu Basis Data & Logistik
Schwierigkeitsgrad: Basic
Extended Abstract:
Die Hapag-Lloyd AG, eine der größten Containerschifffahrtslinien weltweit, hat sich als First-Mover dazu entschieden, die gesamte Containerflotte mit Tracking-Geräten auszustatten. Der Fokus liegt hierbei auf der Erfassung des Containerstandorts sowie weiterer Sensormetriken. Mittlerweile sind über eine Million Container mit diesen Geräten ausgestattet. Durch die „smart container“ werden täglich Terabytes an Daten gesammelt, was den Einsatz einer hoch skalierbaren IT & Analytics-Infrastruktur erfordert.
Mit einem zentralen IoT-Modul werden die Daten zusammengeführt und als zentrale Stelle an die diversen Module und Anwendungen weitergegeben. Und insbesondere an das Web-Frontend, wodurch Anwendungen für die Kunden möglich gemacht werden. Beispielsweise kann der Kunde durch das Web Dashboard einzelne Shipments und Container nachvollziehen oder sich via API die Daten in das eigene Datawarehouse für weitere BI-Analysen oder sogar für die eigenen Kunden als Feature anbieten. Für die sensiblen Reefer Container – die Kühlcontainer – bietet Hapag-Lloyd auch Notifications an, um basierend auf abweichenden Sensor-Metriken reagieren zu können.
Neben den kundenfokussierten Anwendungen werden die Daten auch über Kafka ereignisbasiert in einen Data Lake übertragen. Dort werden die JSON-Events in eine tabellenbasierte Struktur umgewandelt und in der Bronze-Zone von Databricks für die Nutzer bereitgestellt. Die Infrastruktur ist primär auf die Analyse längerer Zeiträume ausgelegt, ermöglicht aber auch eine Near-Realtime-Verarbeitung der Daten.
Im Data Lake beginnt die analytische Verarbeitung der Daten. Mit den H3-Tools in Databricks werden die Positionsdaten in Hexagons unterteilt. Durch die Möglichkeiten der Bibliothek lassen sich Daten glätten, um etwaige Ungenauigkeiten der GPS- oder Mobilfunksignal-Erkennung zu eliminieren. Des Weiteren erlaubt die Bibliothek unterschiedliche „Resolutionen“ der Größe der Hexagons und damit direkt eine Aggregationsmöglichkeit und eine erste einfache Heatmap Option.
Als weiteren vorbereitenden Schritt werden die Positionsdaten zu den Städten, Regionen und Ländern, aber auch zu der internen Geo-Struktur der Hapag-Lloyd zugeordnet. Konkret werden die Hexagons entsprechend zugeordnet. Teile der Daten werden mit dem AWS Location Service generiert und andere Teile werden anhand von bestehenden internen Geo-Daten errechnet.
Diese technische Infrastruktur und die verfügbaren Tools ermöglichen eine Vielzahl von Anwendungsfällen. Dazu zählen klassische BI-Applikationen, die Transparenz über das Inlandsgeschäft schaffen, sowie predictive Analysen, die frühzeitige Entscheidungen und Reaktionen unterstützen. Darüber hinaus dienen die gewonnenen Erkenntnisse als Grundlage für die Optimierung des Inlandsnetzwerks.
Insbesondere durch die Transparenz im Inland lassen sich viele Anwendungen erstellen: So erlauben die Daten für Häfen, Schiffsysteme oder sogar einzelne Reisen die Einzugsgebiete einzusehen, also insbesondere wohin sich die Container im Inland bewegen. Mit der beschriebenen Aggregationsmöglichkeit mit den H3 Hexagons lassen sich hierbei sehr gut Heatmaps erzeugen, um insbesondere stark frequentierte Inlandsziele hervorzuheben.
Ein Beispiel für die frühzeitigen Aktionen, die sich mit IoT ableiten lassen, ist die No-Show-Identifikation, denn auch bei Containerschiffen kommt es vor, dass ein Container nicht rechtzeitig zur Abfahrt am Hafen auftaucht und somit kurzfristig ein Platz auf dem Schiff frei wird. Mit der Information der aktuellen Position des Containers lässt sich vor Abfahrt des Schiffes prüfen, wie weit der Container vom Hafen entfernt ist, und errechnen, ob dieser Container noch rechtzeitig am Hafen erscheint. Technisch werden mit dem AWS Location Service die Route, Distanz und Transitzeit für den Truck Move ausgerechnet und somit eine erwartete Ankunftszeit am Hafen. Mit dem Abgleich zur Schiffsabfahrt lässt sich bereits ermitteln, ob der gebuchte Platz (‚Slot’) frei wird und für einen anderen Container genutzt werden kann.
Als dritten großen Punkt werden generelle Erkenntnisse des Inlandsnetzwerkes gewonnen: Hierbei ist Hapag-Lloyd noch im Aufbau und in der Vorbereitung, dennoch lässt sich bereits ein sehr konkretes und aktuelles Thema darstellen: die Analysis der Emissionen im Inland. Durch die Transparenz durch die IoT-Daten sollen zukünftig basierend auf den tatsächlichen Inlandsbewegungen eine Abschätzung zu den CO2-Emissionen errechnet werden und dadurch bestehende Berechnungen erweitert werden. Insbesondere durch den Wechsel von den theoretisch berechneten Werten hin zu den „Actuals“ erhoffen wir uns Transparenz und abgeleitet hieraus Optimierungspotenziale und Chancen. Weiter erlaubt uns dies eine Einführung einer weiteren Kennzahl, die neben Zeiten und Kosten in die Berechnung unserer vorgeschlagenen Routen einfließt.
Robert Ziegltrum ist aktuell Senior Data Scientist für Smart Container Analytics bei Hapag-Lloyd, zuvor verantwortlich als Product Owner für den Aufbau des zentralen Hapag-Lloyd Data Lakes. Seit über 10 Jahren im Data- und Analytics-Umfeld tätig mit dem Fokus auf (Data-)Produktentwicklung, Data Science und Big Data.