RAG

RAG – Wie KI mit aktuellem Wissen arbeitet

Große Sprachmodelle wie GPT oder Claude sind beeindruckend – aber sie haben eine Schwäche:
Ihr Wissen endet mit dem Zeitpunkt ihres Trainings. Was danach passiert, wissen sie nicht. Genau hier setzt Retrieval-Augmented Generation, kurz RAG, an.mit realem, aktuellem Wissen zu verbinden.

Was ist RAG?

RAG ist eine Architektur, die zwei Dinge kombiniert: das Suchen (Retrieval) und das Generieren (Generation). Statt sich allein auf sein trainiertes Wissen zu verlassen, holt das Modell bei jeder Anfrage aktuelle, relevante Informationen aus einer externen Wissensbasis – und nutzt diese als Grundlage für seine Antwort.

Wie funktioniert das technisch?

Der Ablauf lässt sich in drei Schritte unterteilen:

Indexierung: Dokumente werden in kleine Abschnitte (Chunks) zerlegt und als Vektoren gespeichert.
Retrieval: Die Nutzeranfrage wird ebenfalls vektorisiert und mit den gespeicherten Chunks verglichen. Die ähnlichsten Treffer werden ausgewählt.
Generation: Das Sprachmodell erhält die Anfrage plus die gefundenen Textpassagen und generiert daraus eine fundierte Antwort.

RAG vs. Fine-Tuning – ein Vergleich

Merkmal	RAG	Fine-Tuning
Wissen aktualisierbar?	✅ Ja, jederzeit	❌ Nur durch Neutraining
Trainingsaufwand	Gering	Hoch
Quellenangaben möglich?	✅ Ja	❌ Nein
Kosten	Moderat	Hoch

Wo wird RAG eingesetzt?

RAG eignet sich überall dort, wo aktuelle oder unternehmensinterne Informationen eine Rolle spielen: Kundenservice-Chatbots, interne Wissensdatenbanken, juristische Recherche oder medizinische Informationssysteme. Unternehmen können so ein KI-System betreiben, das ihre eigenen Dokumente „kennt“ – ohne das Modell selbst neu trainieren zu müssen.

Fazit

RAG ist kein Ersatz für leistungsfähige Sprachmodelle – es macht sie schärfer, aktueller und nachvollziehbarer. Gerade für Unternehmensanwendungen ist RAG heute eine der praktischsten Methoden, um KI mit realem, aktuellem Wissen zu verbinden.

RAG Pipeline einfach erklärt

Was ist RAG?

RAG steht für „Retrieval Augmented Generation„, auf Deutsch etwa „Antwort erstellen mit Nachschlagen“. Es ist eine Methode, mit der eine KI genauere und aktuellere Antworten geben kann, indem sie vor der Antwort erst in echten Dokumenten nachschaut, statt sich nur auf ihr antrainiertes Wissen zu verlassen.

Welches Grundproblem löst RAG

Eine normale KI hat ihr Wissen wie ein Mensch im Kopf gespeichert, der viel gelernt hat. Das bringt zwei Schwächen mit sich: Sie kann Dinge verwechseln oder erfinden, und sie kennt nichts, was nach ihrem Training passiert ist oder was nirgends öffentlich zu lesen war, etwa interne Firmendokumente.

RAG behebt beides, indem die KI bei jeder Frage zuerst eine Bibliothek durchsucht und ihre Antwort auf Basis der gefundenen Texte formuliert.

Ein Alltagsbeispiel

Stell dir zwei Prüflinge vor. Der eine beantwortet Fragen nur aus dem Gedächtnis. Der andere darf ein Buch oder das Internet benutzen, schlägt kurz nach und schreibt dann die Antwort mit eigenen Worten auf. Der zweite Prüfling macht weniger Fehler und kann auch Fragen zu Dingen beantworten, die er vorher nie gelernt hat. Genau das macht eine KI mit RAG.

Wie eine RAG-Pipeline abläuft

Eine „Pipeline“ ist einfach die Kette der Arbeitsschritte, die nacheinander ablaufen, so wie an einem Fließband. Bei RAG sind das vier Schritte:

Frage stellen. Der Nutzer stellt eine Frage, zum Beispiel „Wie viele Urlaubstage habe ich laut Vertrag?“
Suchen (Retrieval). Die KI durchsucht eine Sammlung von Dokumenten, zum Beispiel den Arbeitsvertrag, und findet die Textstellen, die zur Frage passen.
Zusammenführen. Die gefundenen Textausschnitte werden zusammen mit der ursprünglichen Frage der KI übergeben, quasi als Spickzettel.
Antworten (Generation). Die KI liest den Spickzettel und formuliert daraus eine verständliche, vollständige Antwort in eigenen Worten.

Warum das nützlich ist

Mit RAG kann eine KI Fragen zu aktuellen Nachrichten, firmeninternen Unterlagen, persönlichen Dokumenten oder Fachliteratur beantworten, ohne dafür extra und aufwendig neu trainiert werden zu müssen. Es reicht, die passenden Dokumente in die durchsuchbare Bibliothek zu legen. Außerdem kann die KI angeben, aus welchem Dokument eine Antwort stammt, was die Antwort nachprüfbar macht.

Kurz zusammengefasst
RAG bedeutet: erst nachschauen, dann antworten. Die RAG-Pipeline ist der feste Ablauf aus Fragen, Suchen, Zusammenführen und Antworten, der dafür sorgt, dass die KI-Antwort auf echten, nachprüfbaren Informationen beruht statt nur auf Erinnerung.

Stufen einer RAG Pipline

Hier eine Übersicht typischer Ausbaustufen, von einer simplen Demo bis zu einem produktionsreifen System.

Stufe 1: Naives RAG

Ein Dokument wird grob in Chunks zerlegt, mit einem einzigen Embedding-Modell vektorisiert, in eine einfache Vektor-Datenbank gepackt. Bei einer Frage: Vektor-Suche, Top-Treffer direkt an das Sprachmodell. Kein Overlap, kein Re-Ranking, keine Fehlerbehandlung. Reicht für ein Wochenendprojekt oder eine erste Demo.

Stufe 2: Optimiertes Chunking

Chunk-Größe und Chunk-Overlap werden bewusst gewählt, idealerweise entlang natürlicher Grenzen wie Absätzen oder Kapiteln statt starrer Zeichenzahl. OCR-Vorverarbeitung für gescannte Dokumente kommt dazu. Die Antwortqualität steigt spürbar, ohne dass die Architektur komplizierter wird.

Stufe 3: Hybride Suche.

Semantic Search und Lexical Search (z. B. BM25) laufen parallel, ihre Ergebnisse werden kombiniert. Das fängt Schwächen der reinen Vektor-Suche ab, etwa bei exakten Fachbegriffen, Namen oder Zahlen, die semantisch leicht untergehen.

Stufe 4: Re-Ranking und Metadaten-Filter

Nach der hybriden Suche sortiert ein Re-Ranker die Treffer nach echter Relevanz neu. Zusätzlich lassen sich Metadaten nutzen, etwa nur in Dokumenten eines bestimmten Datums oder einer bestimmten Quelle zu suchen, bevor überhaupt gesucht wird.

Stufe 5: Query-Transformatio

Die ursprüngliche Frage wird vor der Suche selbst von einer KI verbessert, etwa umformuliert, in mehrere Teilfragen zerlegt, oder um Synonyme erweitert. Das hilft bei vagen oder mehrdeutigen Nutzerfragen.

Stufe 6: Agentic RAG

Das System entscheidet selbst, ob und wie oft es sucht, kann bei unzureichenden Treffern nachfassen, mehrere Wissensquellen unterschiedlich behandeln (z. B. interne Datenbank vs. Web-Suche) und Zwischenschritte planen. Nähert sich einem KI-Agenten statt einer festen Pipeline.

Stufe 7: Maximum / Produktionssystem

Alles Vorherige plus: kontinuierliche Neu-Indexierung bei Dokumentänderungen, Caching für häufige Anfragen, Evaluation/Monitoring der Antwortqualität, Absicherung gegen Falschinformationen (Zitatprüfung, Quellenangabe), Skalierung der Vektor-Datenbank auf Millionen Dokumente, Zugriffsrechte pro Dokument.

Als Faustregel für ein Schulprojekt: Stufe 1 bis 3 sind gut machbar und zeigen schon die wichtigsten Konzepte, Stufe 4 als Erweiterung ist ein sinnvolles Ziel für eine sehr gute Note.

Software-Architektur-Konzept

Vollständige RAG-Pipeline

1. Architektur-Überblick

Eine vollständige RAG-Pipeline besteht aus zwei Strängen: einem Indexierungs-Strang, der einmalig oder regelmäßig die Wissensbasis aufbereitet, und einem Anfrage-Strang, der bei jeder Nutzerfrage durchlaufen wird.

INDEXIERUNG (offline)
Dokumente -> OCR -> Chunking -> Embedding -> Vektor-Datenbank
                                              + Lexical-Index

ANFRAGE (online, pro Frage)
Nutzerfrage -> Embedding -> Hybrid-Suche (Semantic + Lexical)
            -> Re-Ranking -> Prompt-Zusammenbau -> Sprachmodell -> Antwort

Darüber liegen als Querschnittsfunktionen: Orchestrierung/Framework, API-Schicht, Frontend, Monitoring, sowie Zugriffskontrolle und Sicherheit.

2. Komponenten und Software-Optionen

2.1 Dokumenten-Einlesen (Document Loading)

Aufgabe: Rohdaten aus verschiedenen Quellen und Formaten einlesen (PDF, Word, HTML, E-Mail, Datenbank).

Software	Charakter
LangChain Document Loaders	Open Source, große Formatvielfalt, gut in bestehende LangChain-Pipeline integriert
LlamaIndex Readers	Open Source, Alternative zu LangChain, sehr RAG-fokussiert
Unstructured.io	Open Source / Managed API, spezialisiert auf komplexe Dokumentlayouts

2.2 OCR (Texterkennung)

Aufgabe: Gescannte oder bildbasierte Dokumente in durchsuchbaren Text umwandeln.

Software	Charakter
Tesseract OCR	Open Source, kostenlos, lokal betreibbar
AWS Textract	Managed Cloud-Service, gut bei Tabellen/Formularen
Azure AI Document Intelligence	Managed Cloud-Service, gute Integration in Microsoft-Umgebungen
Google Document AI	Managed Cloud-Service, starke Erkennungsqualität

2.3 Chunking

Aufgabe: Texte in sinnvolle, überlappende Abschnitte zerlegen.

Software	Charakter
LangChain Text Splitters	Open Source, viele Strategien (nach Zeichen, Satz, Semantik)
LlamaIndex Node Parsers	Open Source, ähnlich flexibel
Unstructured.io Chunking	Berücksichtigt Dokumentstruktur (Überschriften, Tabellen)

2.4 Embedding-Modelle

Aufgabe: Text in Vektoren (Zahlen) umwandeln, die die Bedeutung abbilden.

Software	Charakter
Mistral Embed	API-basiert, europäischer Anbieter
OpenAI text-embedding-3	API-basiert, weit verbreitet
Cohere Embed	API-basiert, mehrsprachig stark
Voyage AI Embeddings	API-basiert, auf Retrieval-Qualität spezialisiert
sentence-transformers (Hugging Face)	Open Source, selbst hostbar, kostenlos, volle Datenkontrolle

2.5 Vektor-Datenbank

Aufgabe: Vektoren speichern und schnell durchsuchbar machen.

Software	Charakter
Chroma	Open Source, einfach, gut für kleine/mittlere Projekte, lokal
FAISS (Meta)	Open Source, reine Such-Bibliothek statt Vollserver, sehr performant
Qdrant	Open Source, selbst hostbar oder als Managed-Cloud
Milvus	Open Source, für sehr große Datenmengen ausgelegt
Weaviate	Open Source / Managed-Cloud, eingebaute Hybrid-Suche
Pinecone	Vollständig Managed-Cloud, kein eigener Serverbetrieb nötig
PostgreSQL mit pgvector	Erweiterung für bereits vorhandene Postgres-Datenbanken
Azure AI Search / MongoDB Atlas Vector Search	Managed, gut wenn bereits in diesem Ökosystem gearbeitet wird

2.6 Lexical Search / Hybrid-Suche

Aufgabe: Exakte Stichwortsuche parallel zur Bedeutungssuche.

Software	Charakter
Elasticsearch	Etablierter Standard, sehr mächtig, mehr Betriebsaufwand
OpenSearch	Open-Source-Fork von Elasticsearch, ähnliche Funktionen
Meilisearch	Open Source, leichtgewichtig, einfach einzurichten
Typesense	Open Source, ebenfalls leichtgewichtig, entwicklerfreundlich
rank_bm25 (Python-Bibliothek)	Minimal-Lösung für kleine Projekte ohne eigenen Suchserver

2.7 Re-Ranking

Aufgabe: Gefundene Treffer nach tatsächlicher Relevanz neu sortieren.

Software	Charakter
Cohere Rerank	API-basiert, einfach zu integrieren
BGE Reranker (BAAI)	Open Source, selbst hostbar
Jina Reranker	API-basiert oder Open Source Varianten verfügbar

2.8 Orchestrierung / Framework

Aufgabe: Alle Bausteine (Loader, Chunking, Embedding, Suche, Prompt, Modell) zu einer Pipeline verbinden.

Software	Charakter
LangChain	Größtes Ökosystem, viele Integrationen, Python und JavaScript
LlamaIndex	RAG-fokussierter als LangChain, oft einfacherer Einstieg
Haystack (deepset)	Production-orientiert, gute Pipeline-Visualisierung
Microsoft Semantic Kernel	Gut integriert in .NET/Microsoft-Umgebungen
Eigene, schlanke Lösung ohne Framework	Volle Kontrolle, mehr Eigenaufwand, sinnvoll bei kleinem Funktionsumfang

2.9 Sprachmodell (Generation)

Aufgabe: Aus Frage und gefundenen Textstellen die finale Antwort formulieren.

Software	Charakter
Anthropic Claude (API)	Stark bei langem Kontext und sorgfältigem Antwortverhalten
OpenAI GPT (API)	Weit verbreitet, viele Integrationen
Mistral Large / Mistral Small (API)	Europäischer Anbieter, auch kleinere Modelle verfügbar
Google Gemini (API)	Gute Integration in Google-Cloud-Umgebungen
Meta Llama, Mistral Open-Weights (selbst gehostet via Ollama oder vLLM)	Volle Datenkontrolle, keine laufenden API-Kosten, mehr Infrastrukturaufwand

2.10 API- und Backend-Schicht

Aufgabe: Die Pipeline als Dienst bereitstellen, der von einer Anwendung angesprochen werden kann.

Software	Charakter
FastAPI (Python)	Leichtgewichtig, sehr verbreitet für KI-Backends
Flask (Python)	Einfacher, älterer Standard
Node.js / Express	Sinnvoll bei JavaScript-lastigen Teams

2.11 Frontend / Nutzeroberfläche

Aufgabe: Nutzern eine Oberfläche zum Stellen von Fragen geben.

Software	Charakter
Streamlit	Sehr schneller Aufbau von Demo-Oberflächen mit Python
Gradio	Ähnlich wie Streamlit, beliebt für KI-Demos
Eigenes React/Next.js-Frontend	Für ein professionelles, individuelles Produkt

2.12 Monitoring und Evaluation

Aufgabe: Prüfen, wie gut die Pipeline tatsächlich antwortet, und Probleme erkennen.

Software	Charakter
Ragas	Open Source, speziell für RAG-Qualitätsmessung
LangSmith	Zu LangChain gehörig, Tracing und Debugging
Arize Phoenix	Open Source, Monitoring für KI-Anwendungen allgemein
Weights & Biases	Etabliert für Experiment-Tracking, auch für RAG nutzbar

2.13 Deployment und Infrastruktur

Aufgabe: Die gesamte Pipeline betreiben und skalieren.

Software	Charakter
Docker	Standard zur Verpackung aller Komponenten
Kubernetes	Für größere, skalierende Deployments
AWS / Azure / Google Cloud	Öffentliche Cloud-Anbieter für Hosting
Eigener Server / On-Premise	Volle Datenkontrolle, mehr Eigenaufwand

3. Auswahlkriterien

Bei jeder Komponente lohnt sich die Frage: Open Source und selbst gehostet (volle Kontrolle, aber Betriebsaufwand) oder Managed-Service/API (schneller Start, laufende Kosten, Daten verlassen die eigene Infrastruktur). Für sensible Daten empfiehlt sich tendenziell mehr Open-Source-Anteil und Selbst-Hosting.

4. Beispielhafte Gesamtkonfigurationen

Kleines Projekt / Prototyp: LangChain + Chroma (lokal) + sentence-transformers + Claude oder Mistral API + Streamlit-Oberfläche. Schnell aufgesetzt, geringe Kosten.

Mittelständisches Unternehmen: LlamaIndex + Qdrant (selbst gehostet) + Mistral Embed + Elasticsearch für Lexical Search + Cohere Rerank + Claude API + FastAPI-Backend + eigenes Frontend. Guter Kompromiss zwischen Aufwand und Kontrolle.

Hochsicherheitsumgebung (Behörde, Klinik): Vollständig selbst gehostet: eigene Dokumenten-Pipeline, sentence-transformers Embeddings, Milvus oder Qdrant on-premise, BGE Reranker, Llama- oder Mistral-Open-Weights-Modell über vLLM, alles innerhalb des eigenen Netzwerks ohne externe API-Aufrufe.

RAG

RAG – Wie KI mit aktuellem Wissen arbeitet

Was ist RAG?

Wie funktioniert das technisch?

RAG vs. Fine-Tuning – ein Vergleich

Wo wird RAG eingesetzt?

Fazit

RAG Pipeline einfach erklärt

Was ist RAG?

Welches Grundproblem löst RAG

Ein Alltagsbeispiel

Wie eine RAG-Pipeline abläuft

Warum das nützlich ist

Stufen einer RAG Pipline

Stufe 1: Naives RAG

Stufe 2: Optimiertes Chunking

Stufe 3: Hybride Suche.

Stufe 4: Re-Ranking und Metadaten-Filter

Stufe 5: Query-Transformatio

Stufe 6: Agentic RAG

Stufe 7: Maximum / Produktionssystem

Software-Architektur-Konzept

1. Architektur-Überblick

2. Komponenten und Software-Optionen

2.1 Dokumenten-Einlesen (Document Loading)

2.2 OCR (Texterkennung)

2.3 Chunking

2.4 Embedding-Modelle

2.5 Vektor-Datenbank

2.6 Lexical Search / Hybrid-Suche

2.7 Re-Ranking

2.8 Orchestrierung / Framework

2.9 Sprachmodell (Generation)

2.10 API- und Backend-Schicht

2.11 Frontend / Nutzeroberfläche

2.12 Monitoring und Evaluation

2.13 Deployment und Infrastruktur

3. Auswahlkriterien

4. Beispielhafte Gesamtkonfigurationen

Related Projects

KI System mit drei Ebenen

KI im Unternehmen

Claude Code Agenten

GGW | Gehirn, Gedächnis, Werkzeuge

EU Cloud Souveränität