Hinweis: Die aktuelle TDWI-Konferenz findest Du hier!

PROGRAMM

Die im Konferenzprogramm der TDWI München 2023 angegebenen Uhrzeiten entsprechen der Central European Time (CET).

Per Klick auf "VORTRAG MERKEN" innerhalb der Vortragsbeschreibungen kannst du dir deinen eigenen Zeitplan zusammenstellen. Du kannst diesen über das Symbol in der rechten oberen Ecke jederzeit einsehen.

 

Hier kannst Du die Programmübersicht der TDWI München 2023 mit einem Klick als PDF herunterladen.

Bessere Stammdatenqualität durch Machine Learning

Duplikaterkennung in Stammdaten ist essenziell für alle Geschäftsberichte und -analysen. Klassische Methoden erfordern die manuelle, datenspezifische und zeitintensive Formulierung von Regeln und Ähnlichkeitsmaßen. Machine Learning-Methoden hingegen sind in der Lage, Muster und Regeln automatisch abzuleiten, um Duplikate zu erkennen und die Datenqualität in den Stammdaten zu erhöhen. In diesem Beitrag wird gezeigt, wie eine bestehende Master Data Management Software um individuelle und austauschbare ML-Methoden erweitert werden kann.

Zielpublikum: Data Engineers, ETL/DWH-Entwickler:innen, Enterprise Architects, Entscheider:innen
Voraussetzungen: Grundlagen Datenmanagement, Datenintegration, Data Governance und Machine Learning
Schwierigkeitsgrad: Fortgeschritten

Extended Abstract:
Stammdaten bilden die Grundlage für essenzielle Geschäftsprozesse oder betrieblich relevante Aufgaben in Unternehmen. In diesen Situationen verfälscht ein mehrfaches Vorhandensein identischer Datenobjekte jedoch das gewünschte Ergebnis. Mit Master Data Management-Systemen lassen sich die Datenmodellierung und daraus folgende Datenqualitätskriterien schnell und spezifisch definieren. Durch die Kombination verschiedener Funktionen (z. B. Datenmodellierung, Workflow-Engine, konfigurierbare User-Interfaces etc.) sind sie der zentrale Knoten für die Erzeugung einer 360°-Sicht auf die geschäftskritischen Daten.

Viele dieser Systeme bieten zwar die Möglichkeit, eine Funktion zum Matching (Duplikaterkennung ohne gemeinsamen Primärschlüssel) auf Basis von Zeichenkettenvergleichen umzusetzen, jedoch ist diese Vorgehensweise von der Konfiguration und auch von den zu vergleichenden Daten abhängig. Bei einer Änderung der Daten muss auch die Erkennung überarbeitet werden. Damit die Datenqualität jedoch weiterhin hoch bleibt und die Prozesse zuverlässig ausgeführt werden können, müssen unerwünschte Duplikate effektiv erkannt werden - unabhängig vom Datenkontext. Insbesondere bei komplexen Datensätzen oder Matching-Problemen (z. B. Erkennung von Duplikaten in unterschiedlichen Sprachen) können klassische Verfahren (z. B. basierend auf Levenshtein-Distanzen) nur unzureichende Ergebnisse liefern.

In diesem Beitrag wird gezeigt, wie Machine Learning-Algorithmen in diesen Fällen das Matching von Datensätzen übernehmen können. Es wird gezeigt, wie neuronale Netze in den Matching-Ablauf der Software integriert werden können und komplexe Matching-Situationen auflösen können. In einer Demo soll der Ablauf eines prototypischen Szenarios exemplarisch in einem MDM-System gezeigt werden.

Stammdaten nehmen in praktisch allen Einsatzzwecken eine zentrale Rolle ein. Sie bilden die Grundlage für viele Datenanwendungen in Unternehmen (z. B. in Analytics, DWH-Anwendungen und Operative Systeme). In Summe führt eine verbesserte Stammdatenqualität direkt zu besseren Berichten und damit auch zu besseren Entscheidungen in Unternehmen.

Igor Shmelev ist Software-Engineer bei der PRODATO Retail Solutions GmbH und absolviert sein Masterstudium in Informatik an der FAU Erlangen-Nürnberg. Sein Anwendungsgebiet ist die Full-Stack-Entwicklung mit C# und Data Governance mit besonderem Fokus auf Datenqualität.

Melanie B. Sigl ist Managing Consultant und leitet den Bereich Machine Learning bei PRODATO Integration Technology GmbH. Zusätzlich ist sie Lehrbeauftragte für 'Knowledge Discovery in Databases' am Lehrstuhl für Datenmanagement an der FAU Erlangen-Nürnberg.

Igor Shmelev, Melanie B. Sigl
10:30 - 11:15
Vortrag: Mi 5.2

Vortrag Teilen