RAG

RAG – Wie KI mit aktuellem Wissen arbeitet

Große Sprachmodelle wie GPT oder Claude sind beeindruckend – aber sie haben eine Schwäche:
Ihr Wissen endet mit dem Zeitpunkt ihres Trainings. Was danach passiert, wissen sie nicht. Genau hier setzt Retrieval-Augmented Generation, kurz RAG, an.

Was ist RAG?

RAG ist eine Architektur, die zwei Dinge kombiniert: das Suchen (Retrieval) und das Generieren (Generation). Statt sich allein auf sein trainiertes Wissen zu verlassen, holt das Modell bei jeder Anfrage aktuelle, relevante Informationen aus einer externen Wissensbasis – und nutzt diese als Grundlage für seine Antwort.

Wie funktioniert das technisch?

Der Ablauf lässt sich in drei Schritte unterteilen:

  1. Indexierung: Dokumente werden in kleine Abschnitte (Chunks) zerlegt und als Vektoren gespeichert.
  2. Retrieval: Die Nutzeranfrage wird ebenfalls vektorisiert und mit den gespeicherten Chunks verglichen. Die ähnlichsten Treffer werden ausgewählt.
  3. Generation: Das Sprachmodell erhält die Anfrage plus die gefundenen Textpassagen und generiert daraus eine fundierte Antwort.

RAG vs. Fine-Tuning – ein Vergleich

Merkmal RAG Fine-Tuning
Wissen aktualisierbar? ✅ Ja, jederzeit ❌ Nur durch Neutraining
Trainingsaufwand Gering Hoch
Quellenangaben möglich? ✅ Ja ❌ Nein
Kosten Moderat Hoch

Wo wird RAG eingesetzt?

RAG eignet sich überall dort, wo aktuelle oder unternehmensinterne Informationen eine Rolle spielen: Kundenservice-Chatbots, interne Wissensdatenbanken, juristische Recherche oder medizinische Informationssysteme. Unternehmen können so ein KI-System betreiben, das ihre eigenen Dokumente „kennt“ – ohne das Modell selbst neu trainieren zu müssen.

Fazit

RAG ist kein Ersatz für leistungsfähige Sprachmodelle – es macht sie schärfer, aktueller und nachvollziehbarer. Gerade für Unternehmensanwendungen ist RAG heute eine der praktischsten Methoden, um KI mit realem, aktuellem Wissen zu verbinden.