KONFERENZPROGRAMM

Vom Datensilo zum Data Mesh: Bundesnetzagentur auf Datenkurs

Bei der Bundesnetzagentur wurden Daten in Silos gehalten. Der Vortrag zeigt, wie mit einem Data Mesh ein domänenorientiertes Datenökosystem geschaffen wurde, anstatt ein zentrales Data Warehouse neu zu bauen. Wir berichten, wie wir eine föderierte Datenplattform ("Zentrales Datenmanagement") mittels einer Datenvirtualisierung mit Datenkatalog, Self-Service-Zugängen und Data Governance etabliert haben und dadurch Datenqualität sowie Analysegeschwindigkeit deutlich verbessern konnten.

Zielpublikum: Datenarchitekt:innen, BI-Manager:innen und Verantwortliche für Data Warehouse/Data Lake;Data-Governance-Manager:innen und Datenqualitäts-Verantwortliche; Projektleiter:innen und IT-Entscheider, die Data-&-Analytics-Initiativen vorantreiben 
Voraussetzungen: Grundkenntnisse in Datenmanagement und Datenarchitektur (z.B. Begriffe wie Data Warehouse, Data Lake, BI) sind von Vorteil, aber nicht zwingend erforderlich. Wichtig ist vor allem ein Interesse an strategischen und organisatorischen Fragen rund um Data &
Level: Basic

Extended Abstract:
Ausgangslage und Motivation

Die Bundesnetzagentur mit über 100 Referaten und über 3.000 Mitarbeitern in verschiedenen Fachabteilungen sah sich mit einer fragmentierten Datenlandschaft konfrontiert. Einzelne Referate und Fachabteilungen betrieben isolierte Datensilos, ein zentrales Data-Warehouse existierte nicht. Dies erschwerte bereichsübergreifende Analysen und eine einheitliche Datennutzung. Vor dem Hintergrund steigender Anforderungen an Datenanalyse und -bereitstellung entschied sich die Behörde für einen innovativen Ansatz: Data Mesh anstelle eines klassischen Data Warehouse. Das Data-Mesh-Paradigma, definiert durch die vier Prinzipien domänenorientierte dezentrale Datenverantwortung, Daten als Produkt, Self-Service-Datenplattform und föderierte Governance, schien ideal zur dezentralen Struktur der Organisation zu passen. Es überträgt Datenverantwortung an die Fachdomänen selbst und ermöglicht flexible, skalierbare Datenbereitstellung in großen verteilten Organisationen.

Architekturentscheidung: Data Mesh statt Data Warehouse

Anstatt alle Daten zentral zu konsolidieren, verfolgt Data Mesh einen domänenorientierten Ansatz. Jede Fachabteilung („Domäne“) der Bundesnetzagentur übernimmt die Verantwortung für ihre Daten und stellt sie als Datenprodukte für andere bereit. Dieses Modell erhöht Agilität und Fachnähe im Datenmanagement. Die Domänenteams kümmern sich um Datenqualität, -verständlichkeit und -verfügbarkeit ihrer Daten und erhalten gleichzeitig Autonomie über die technischen Tools, solange gemeinsame Standards eingehalten werden. Damit setzt das Projekt die Prinzipien Domain Ownership und Data as a Product praktisch um: Daten werden mit derselben Sorgfalt wie Produkte behandelt und für bereichsübergreifende Nutzung aufbereitet. Ein zentrales Data Warehouse wurde bewusst vermieden, um die organisatorische Föderation nicht durch einen technischen Monolithen zu behindern. Stattdessen schafft Data Mesh eine föderierte Datenplattform, in der Daten dezentral bleiben, aber logisch vernetzt sind.

Technische Umsetzung mit Datenvirtualisierung

Technologisches Rückgrat der Lösung ist eine Datenvirtualisierungsplattform. Datenvirtualisierung ermöglicht den Zugriff auf verteilte Datenquellen, ohne die Daten physisch zu bewegen. Die Plattform bildet eine unabhängige semantische Schicht über allen Datenquellen und liefert einen performanten Abstraktionslayer für den Datenzugriff. Heterogene Quellen (Datenbanken, APIs, Dateien, ggf. Streaming-Daten) werden darüber nahtlos verbunden, was Silos aufbricht und Echtzeitanalysen über Bereichsgrenzen hinweg erlaubt. Durch eine Massively Parallel Processing (MPP)-Query-Engine und intelligente Query-Optimierung im Virtualisierungswerkzeug können auch große Datenmengen effizient abgefragt werden. Die gewählte Plattform unterstützt explizit das Data-Mesh-Konzept, indem sie domänenübergreifend als zentraler Datenzugang dient und dennoch die Fachbereiche befähigt, ihre Datenprodukte eigenständig zu verwalten. SQL als gemeinsame Abfragesprache fungiert dabei als „Lingua Franca“: Alle angebundenen Datenquellen können über standardisierte SQL-Views abgefragt werden. Dies senkt die Einstiegshürde für Analysten und Data Scientists erheblich, da bestehende SQL-Kenntnisse genutzt werden können.

Ein wesentlicher Vorteil dieser Architektur ist die schnelle Integrationszeit neuer Datenquellen. Eine Vielzahl vordefinierter Konnektoren der Virtualisierungsplattform erlaubten es, unterschiedlichste Systeme (von klassischen relationalen DBMS bis Cloud-Services) ohne individuellen ETL-Code anzubinden. Dadurch konnten erste Anwendungsfälle deutlich schneller umgesetzt werden. Gleichzeitig gewährleistet die semantische Schicht konsistente Zugriffsmechanismen und globale Regeln, etwa für Datenschutz und Audit, über alle Domänen hinweg.

Föderierte Datenplattform: Datenkatalog, Self-Service und Governance

Um die Auffindbarkeit und Verständlichkeit der verstreuten Datenprodukte sicherzustellen, wurde ein Datenkatalog eingeführt. Gemäß dem Data-Mesh-Prinzip müssen Domänendaten für bereichsfremde Nutzer leicht zu finden, verständlich dokumentiert und zugänglich sein. Der Katalog erfasst technische und fachliche Metadaten zu allen Datenprodukten und deren Quellsystemen. Dies fördert die Wiederverwendung von Daten über Fachbereichsgrenzen hinweg und schafft Transparenz darüber, welche Daten wo vorliegen. Zugleich dient er als zentrales Werkzeug für Metadaten-Management und Lineage- und Impact-Analysen, was gerade in einer Regulierungsbehörde essenziell für Vertrauen in die Daten ist.

Self-Service-Zugänge: Die Datenplattform ermöglicht verschiedenen Nutzergruppen selbstständigen Datenzugriff entsprechend ihren Bedürfnissen. Für Data Analysts und Scientists gibt es SQL-Zugriff (z.B. über JDBC/ODBC auf die Virtualisierungsschicht), für Business-Intelligence-Anwender werden BI-Tools wie Tableau oder Power BI direkt angebunden, und für Entwickler oder externe Partner stehen API-Endpunkte zur Verfügung. Über einen integrierten API-Server können definierte Datenabfragen als REST/OData-Services bereitgestellt werden, sodass auch der Zugriff im Rahmen von Anwendungen und Portalen möglich ist. Diese Self-Service-Optionen verringern die Abhängigkeit von zentraler IT und fördern die Daten-Demokratisierung. Fachbereiche können nun schneller fachübergreifende Analysen fahren oder Datenprodukte entwickeln, ohne ein zentrales Datenteam einbinden zu müssen. Dies steigert die Agilität erheblich.

Rollenmodell: Als zentrales Element des Projekts wurde ein Rollen- und Verantwortlichkeitsmodell etabliert. Auf Ebene der Fachseiten wird zwischen Powerusern und Datenkonsumenten je Datenprodukt unterschieden. Perspektivisch sollen für Domänen Data Owner ernannt werden, die strategisch für die Daten einer Domäne verantwortlich sind (Qualität, Sicherheit, Freigaberegeln), sowie einen oder mehrere Data Stewards, die operativ die Pflege der Daten und Metadaten übernehmen. Beispielsweise sollen die Data Stewards Standards für Adressdaten oder Telefonnummer etablieren. Diese Rollen entsprechen den Empfehlungen für Data-Mesh-Governance, wonach domäneninterne Experten die Daten kuratieren und Qualität sicherstellen. Auf diese Weise verbindet das Projekt lokale Autonomie mit unternehmensweiten Leitplanken. Die Virtualisierungsplattform selbst unterstützt die Durchsetzung zentraler Policies: Zugriffskontrollen und Berechtigungen können einheitlich auf der semantischen Schicht konfiguriert und durchgesetzt werden. So ist z.B. sichergestellt, dass nur berechtigte Rollen sensible Datenfelder einsehen können, unabhängig davon, aus welcher Quelle die Daten stammen.

Sicherheit und externe Anbindung

Da in einer Regulierungsbehörde hohe Sicherheitsanforderungen gelten, wurde der gesamte Aufbau von Beginn an unter Gesichtspunkten der IT-Sicherheit konzipiert. Besonders die Öffnung von Datenzugängen für externe Nutzer (etwa andere Behörden, Marktteilnehmer oder die Öffentlichkeit) erforderte zusätzliche Maßnahmen. Hier kommt ein vorgelagerter Reverse Proxy zum Einsatz, der als sichere Brücke zwischen externer Anfrage und interner Datenplattform fungiert. Über den Reverse Proxy werden eingehende API-Requests oder BI-Zugriffe authentifiziert, autorisiert und protokolliert, bevor sie an die Virtualisierungsplattform weitergeleitet werden. Dies ermöglicht eine strikte Trennung zwischen dem öffentlichen Netz und dem internen Datenkreislauf. Ergänzend wurden feingranulare Berechtigungen umgesetzt (bis auf Attribut-Ebene), um sicherzustellen, dass jede Domäne die Hoheit über ihre Datenfreigaben behält. Die Kombination aus zentralem Berechtigungsmodell der Plattform und vorgelagertem Proxy ergibt ein mehrschichtiges Sicherheitskonzept, das den strengen Compliance-Vorgaben der Behörde entspricht. Zugleich erlaubt es externe Zugriffspfade: Beispielsweise können bestimmte freigegebene Datenprodukte via API kontrolliert nach außen bereitgestellt werden, ohne die interne Infrastruktur zu gefährden.

Use Cases und erste Erfolge

Die neue Datenarchitektur wurde erfolgreich in mehreren Anwendungsfällen erprobt. Ein zentrales Beispiel sind Marktanalysen: Hierfür müssen Daten verschiedener Referate oder perspektivisch Fachbereiche kombiniert werden (z.B. Eisenbahnmarkt, Energiemarkt). Durch das Data Mesh konnten solche Analysen agil durchgeführt werden, indem Domänen wie Telekommunikation, Energie und Verbraucher schnell ihre Daten virtuell zusammenführten. Wo früher eine aufwändige Datensuche und ETL-Abstimmungen nötig waren, lassen sich nun Ad-hoc-Abfragen über alle relevanten Quellen per SQL fahren. Einzelnen Fachseite automatisieren in Eigenregie Bereitstellung von Daten für externe System. Es wurde mehrere externe APIs mit teils sehr komplexen Prozeduren erschlossen. Durch eine Schnittstelle des Systems können Daten einer externen API direkt an interne Fachsystem durchgereicht werden, ohne dass diese System sich direkt nach außen öffnen müssen. 

Sowohl interne wie externe Zugriffspfade profitieren von der neuen Plattform. Intern kann bereichsübergreifend auf Daten zugegriffen werden, was die Zusammenarbeit fördert. Extern kann die Bundesnetzagentur ausgewählte Daten für andere Behörden und die Öffentlichkeit in standardisierter Form bereitstellen (z.B. über offene Schnittstellen), was die Transparenz erhöht und den gesetzlichen Auftrag zur Information der Marktteilnehmer unterstützt.

In einzelnen Fachbereichen entstehen in Eigenregie neue datengetriebene Produkte, etwa interaktive Dashboards und Berichte, die ohne zentrale Entwicklungsprojekte realisiert werden können. Diese „Quick Wins“ demonstrieren , dass die Domänen befähigt wurden, ihre Datenwertschöpfung selbst voranzutreiben: ein Kernziel des Data-Mesh-Ansatzes. Gleichzeitig steigt die Datenkompetenz in den Fachbereichen, da durch den Self-Service-Ansatz vermehrt Schulungen und Wissenstransfer rund um Datenanalyse und SQL stattfinden und geplant sind.

Besondere Learnings und Ausblick

Die Umsetzung des Data Mesh in einer öffentlichen Behörde bringt wertvolle Erkenntnisse. Technologisch zeigt sich, dass Datenvirtualisierung ein effektiver Enabler für verteilte Architekturen ist. Die Fähigkeit, disparate Datenquellen in Echtzeit zusammenzuführen, ohne redundante Kopien zu erzeugen, ist entscheidend für die Akzeptanz – insbesondere da Datenaktualität für viele regulatorische Entscheidungen maßgeblich ist. Außerdem bewährt sich SQL als gemeinsamer Nenner: Die Entscheidung, SQL als universelle Abfragesprache zu etablieren, senkt Barrieren zwischen klassischen BI-Teams und Data-Science-Experten. Ein  Vorteil ist, dass auch weniger technische Anwender über Self-Service-BI schneller Einblick in Daten erhalten.

Organisatorisch ist ein zentrales Learning, dass Governance nicht an zentraler Stelle erzwungen, sondern in den Domänen gelebt werden muss. Dies fördert die Datenqualität und zugleich die Bereitschaft, Daten zu teilen, da die Domänen die Kontrolle über „ihre“ Daten behalten und dennoch unternehmensweit Nutzen bringen. 

Ein zukünftiger geplanter Schritt ist ein Proof-of-Concept „Talk to Your Data“. Dabei soll erprobt werden, wie sich mithilfe eines KI-gestützten Ansatzes (Natural Language Querying) die Datenplattform noch benutzerfreundlicher machen lässt. Nutzer sollen in natürlicher Sprache Fragen stellen, die vom System in SQL-Queries übersetzt und gegen die föderierte Datenplattform ausgeführt wurden. Durch diesen Ansatz könnten perspektivisch noch breitere Nutzerkreise befähigt werden, komplexe Datenabfragen zu formulieren, ohne tiefes SQL-Wissen.

Unser Fazit: Das Projekt „Zentrales Datenmanagement“ bei der Bundesnetzagentur zählt zu den Vorreitern, was den Einsatz von Data-Mesh-Prinzipien im öffentlichen Sektor angeht. Die Verbindung moderner Technologien (Datenvirtualisierung, semantische Schichten) mit einem durchdachten Governance-Modell demonstriert hohe technologische Kompetenz und Innovationsgrad. Gleichzeitig ist der Ansatz unmittelbar relevant für viele große Organisationen mit verteilten Strukturen, die vor ähnlichen Herausforderungen stehen. In unserem Vortrag bieten wir einen tiefgehenden Einblick in Architektur, Umsetzung und Lessons Learned dieses Projekts. Er wird gemeinsam präsentiert von einem Vertreter der Bundesnetzagentur und einem Berater der Dataciders, um sowohl die Behördensicht als auch die technische Perspektive abzubilden. Damit adressiert der Beitrag Datenarchitekt:innen, Data Engineers, CDOs sowie BI- und Plattform-Verantwortliche gleichermaßen und liefert wertvolle Erfahrungen für die erfolgreiche Einführung moderner Datenplattformen.

Dataciders GmbH
Managing Consultant

Dr. Andreas Brenner (Dataciders GmbH) ist Experte für Data Strategy und Data Governance mit über 8 Jahren Erfahrung in Datenprojekten der Wirtschaft und Verwaltung. Er verantwortete das Projekt "Zentrales Datenmanagement" bei der Bundesnetzagentur und unterstütze dort den Aufbau einer modernen, Data-Mesh-basierten Datenplattform. Zuvor hat er zahlreiche Data- und Analytics-Initiativen umgesetzt. Sein Fokus liegt darauf, innovative Datenarchitekturen pragmatisch zu verankern.

Bundesnetzagentur

Dr. Max Meulemann (Bundesnetzagentur) ist Referent in der Data Unit der Bundesnetzagentur. Er verantwortet den Aufbau eines zentralen Datenmanagements und einer Analyseplattform. Die Data Unit der Bundesnetzagentur wurde 2023 gegründet, um data driven Policy Analysen zu verbessern. Anhand einer internen Studie und einem Vergleich verschiedener auf dem Markt verfügbarer Lösungen, hat die Bundesnetzagentur ein zentrales Datenmanagement System im Sinne eines Data Meshs 2024 ausgeschrieben und führt dieses seit Anfang 2025 ein.

Andreas Brenner, Max Meulemann
10:25 - 11:10
Vortrag: Di 4.1

Vortrag Teilen