KONFERENZPROGRAMM

100 EUR sparen bis zum 23. Mai mit Code: EARLYBIRD

Hands-on RAG: Vektorbasierte Suche mit Python

In diesem Workshop lernen Sie, wie Retrieval Augmented Generation (RAG) funktioniert und warum Vektordatenbanken wie PostgreSQL pg_vector hierbei so entscheidend sind. Schritt für Schritt bauen wir ein RAG-System auf, das Wissensquellen erschließt und die Generierung von Texten durch Large Language Models (LLMs) verbessert. Obwohl wir PostgreSQL (alternativ FAISS als Vektorindex) als Beispiel nutzen, lassen sich die vorgestellten Konzepte problemlos auf andere Vektor-Datenbanken übertragen.

Maximale Teilnehmendenzahl: 30

Zielpublikum: Grundkenntnisse in Datenbanken/SQL und Python
Voraussetzungen: Repository für Workshop: https://github.com/abuckenhofer/tdwi2025 Teilnehmende benötigen für den Workshop einen Laptop mit installierter Python-Umgebung, Docker (für PostgreSQL pg_vector bzw FAISS falls kein Docker verwendet werden soll) sowie Zugang zu einem Large Language Model. Die im Workshop verwendeten Skripte werden über ein GitHub-Repository zur Verfügung gestellt.
Schwierigkeitsgrad: Basic

Extended Abstract:
Die Beispiele basieren auf PostgreSQL pg_vector (bzw. FAISS als Alternative), können aber auf andere Datenbanken übertragen werden, da der Fokus auf der Vermittlung von Methoden und Konzepten liegt. 

Repository für Workshop: https://github.com/abuckenhofer/tdwi2025

1.) Einführung in RAG (Retrieval Augmented Generation) 

  • RAG-Architektur.
  • Was ist RAG und wie unterscheidet es sich von rein generativen Ansätzen?
  • Typische Anwendungsfälle: Chatbots, intelligente FAQ-Systeme, semantische Suche. 

2.) PostgreSQL pg_vector als VectorDB bzw. FAISS (als Alternative) 

  • Vorteile/Nachteile von PostgreSQL pg_vector im Vergleich zu spezialisierten VectorDBs.
  • Indexing und Such-Algorithmen (z. B. IVF, HNSW). 

3.) Embeddings & Python 

  • Kurzer Überblick: Wie generieren wir Embeddings (Text, Bild etc.)?
  • Nutzung von Python-Bibliotheken.
  • Workflow: Daten => Embeddings => Speicherung in PostgreSQL. 

4.) Input und RAG-Pipelines: Umsetzungsbeispiel als Hands-on Session 

Schritte: 

  • Dokumente importieren & bereinigen.
  • Text-Embeddings generieren.
  • Embeddings in PostgreSQL ablegen.
  • Anfragen an ein LLM stellen und relevante Dokumentpassagen abrufen.
  • Kontextbasierte Antwort generieren (z. B. via GPT-3.5/4, Bloom etc.).

Als Senior Data Architect bei Adam Riese verantwortet Andreas Buckenhofer den Aufbau eines Lakehouse und fungiert dabei als Schnittstelle zwischen fachlichen Anforderungen und technologischen Lösungen. Seine Schwerpunkte liegen in den Bereichen Produktmanagement, Data Governance, Architektur, Datenmodellierung, Visualisierung und Data Engineering. Darüber hinaus lehrt er Datenmanagement an der DHBW.

Andreas Buckenhofer
10:25 - 12:20
Vortrag: Di 5.1

Vortrag Teilen