TDWI München 2025
MOC München | 24. – 26. Juni 2025
Die Konferenz für Data, Analytics und KI.

KONFERENZPROGRAMM

Hier könnt ihr die Programmübersicht der TDWI München 2025 mit einem Klick als PDF herunterladen.

Hands-on RAG: Vektorbasierte Suche mit Python

In diesem Workshop lernen Sie, wie Retrieval Augmented Generation (RAG) funktioniert und warum Vektordatenbanken wie PostgreSQL pg_vector hierbei so entscheidend sind. Schritt für Schritt bauen wir ein RAG-System auf, das Wissensquellen erschließt und die Generierung von Texten durch Large Language Models (LLMs) verbessert. Obwohl wir PostgreSQL (alternativ FAISS als Vektorindex) als Beispiel nutzen, lassen sich die vorgestellten Konzepte problemlos auf andere Vektor-Datenbanken übertragen.

Maximale Teilnehmendenzahl: 30

Zielpublikum: Grundkenntnisse in Datenbanken/SQL und Python
Voraussetzungen: Repository für Workshop: https://github.com/abuckenhofer/tdwi2025 Teilnehmende benötigen für den Workshop einen Laptop. Es kann das freie
https://colab.research.google.com genutzt werden oder lokale Installation einer Python-Umgebung (+ optional Docker falls PostgreSQL pgvector verwendet werden soll). Die im Workshop verwendeten Skripte werden über ein GitHub-Repository zur Verfügung gestellt.
Schwierigkeitsgrad: Basic

Extended Abstract:
Die Beispiele basieren auf PostgreSQL pg_vector (bzw. FAISS als Alternative), können aber auf andere Datenbanken übertragen werden, da der Fokus auf der Vermittlung von Methoden und Konzepten liegt.

Repository für Workshop: https://github.com/abuckenhofer/tdwi2025

1.) Einführung in RAG (Retrieval Augmented Generation)

RAG-Architektur.
Was ist RAG und wie unterscheidet es sich von rein generativen Ansätzen?
Typische Anwendungsfälle: Chatbots, intelligente FAQ-Systeme, semantische Suche.

2.) PostgreSQL pg_vector als VectorDB bzw. FAISS (als Alternative)

Vorteile/Nachteile von PostgreSQL pg_vector im Vergleich zu spezialisierten VectorDBs.
Indexing und Such-Algorithmen (z. B. IVF, HNSW).

3.) Embeddings & Python

Kurzer Überblick: Wie generieren wir Embeddings (Text, Bild etc.)?
Nutzung von Python-Bibliotheken.
Workflow: Daten => Embeddings => Speicherung in PostgreSQL.

4.) Input und RAG-Pipelines: Umsetzungsbeispiel als Hands-on Session

Schritte:

Dokumente importieren & bereinigen.
Text-Embeddings generieren.
Embeddings in PostgreSQL ablegen.
Anfragen an ein LLM stellen und relevante Dokumentpassagen abrufen.
Kontextbasierte Antwort generieren (z. B. via GPT-3.5/4, Bloom etc.).

Andreas Buckenhofer

Als Senior Data Architect bei Adam Riese verantwortet Andreas Buckenhofer den Aufbau eines Lakehouse und fungiert dabei als Schnittstelle zwischen fachlichen Anforderungen und technologischen Lösungen. Seine Schwerpunkte liegen in den Bereichen Produktmanagement, Data Governance, Architektur, Datenmodellierung, Visualisierung und Data Engineering. Darüber hinaus lehrt er Datenmanagement an der DHBW.

Andreas Buckenhofer

Track: Hands-On & Interactive

10:25 - 12:20

Vortrag: Di 5.1

Vortrag Teilen