Predictive LLMs: übertreffen LLMs klassische Methoden wie XGBoost?
Large Language Models (LLMs), wie GPTs, sind leistungsstarke Tools zur Verarbeitung natürlicher Sprache. Dieser Vortrag beleuchtet eine eher untypische Anwendung: die Prognose numerischer Zielvariablen. LLMs verarbeiten strukturierte und unstrukturierte Daten und bieten Vorteile bei der Merkmalsgenerierung. Anwendungsfälle wie die Kombination von tabellarischen Daten und Freitext sowie der Vergleich von Open- und Closed-Source-Modellen werden untersucht, mit Fokus auf Vorhersagequalität und Vergleich zu XGBoost.
Zielpublikum: Data and ML Scientist, Führungskräfte und Entscheider:innen, die sich über den praktischen Nutzen von LLMs für Vorhersagemodelle und deren Vergleich zu etablierten Methoden informieren möchten
Voraussetzungen:Grundkenntnisse in Data Science und Machine Learning, Verständnis von LLMs und klassischen ML-Methoden, Kenntnisse in Datenverarbeitung, Interesse an Predictive Analytics.
Schwierigkeitsgrad:Advanced
Extended Abstract:
Large Language Models (LLMs) wie GPTs (Generative Pre-trained Transformers) haben sich als leistungsfähige Werkzeuge zur Verarbeitung und Generierung natürlicher Sprache etabliert. In diesem Vortrag wird eine bisher eher untypische Anwendung dieser Modelle vorgestellt: die Vorhersage einer metrischen Zielvariablen. Diese Art der Anwendung geht über rein textbasierte Aufgaben hinaus und eröffnet neue Möglichkeiten im Bereich der datengetriebenen Vorhersage.
Durch ihre Fähigkeit, sowohl strukturierte als auch unstrukturierte Daten – wie Freitext – zu verarbeiten, bieten LLMs besondere Vorteile bei der Merkmalsgenerierung und der Erkennung komplexer Muster. Können diese Eigenschaften genutzt werden, um die Vorhersagegenauigkeit bei numerischen Zielvariablen zu erhöhen? Und welchen Mehrwert bieten LLMs im Vergleich zu etablierten Methoden wie XGBoost? Verschiedene Anwendungsfälle werden untersucht, darunter die Arbeit mit rein tabellarischen Daten, die Kombination von tabellarischen Daten und Freitext sowie die Generierung von Merkmalen aus Textdaten. Neben der Verwendung von GPT-3.5 von OpenAI werden auch Open-Source-LLMs betrachtet, die durch lokale Verarbeitung datenschutzfreundliche Alternativen bieten.
Am Beispiel der Vorhersage von Gebrauchtwagenpreisen wird demonstriert, wie LLMs zur Verbesserung der Vorhersagequalität von metrischen Zielvariablen beitragen können. Der Vortrag gibt praktische Einblicke in den Einsatz von LLMs für Predictive Analytics und beleuchtet deren Potenzial im Vergleich zu „klassischen“ Machine-Learning-Verfahren wie XGBoost.
Marina Runge studierte Mathematik und Statistik und bringt langjährige Erfahrung in der Data-Science-Beratung mit. Seit über 10 Jahren ist sie bei INWT tätig, aktuell als Senior Data Scientist. Ihre Expertise umfasst die Modellierung, Predictive Analytics sowie die Softwareentwicklung. Von 2020 bis 2023 promovierte sie parallel zu ihrer Tätigkeit bei INWT an der Freien Universität Berlin in dem Feld der Small Area Estimation.