KI Brain

KI Brain Aufbau Schritte — von der Datenbasis bis zur fertigen KI-Anfrage.

① Datenquellen identifizieren — Was soll die KI wissen? Typisch: interne Dokumente, Handbücher, FAQs, Wissensbasis-Einträge, E-Mails, Sharepoint-Seiten. Hier wird auch die DSGVO-Relevanz geprüft: Welche Daten dürfen verarbeitet werden?

② Datenaufbereitung — Der oft unterschätzte Engpass. Scans brauchen OCR, PDFs müssen extrahiert werden, Duplikate entfernt, Formatierung bereinigt. Erfahrungsgemäß entfällt hier 40–60 % des Projektaufwands.

③ Chunking & Embeddings — Texte werden in sinnvolle Abschnitte (Chunks) geteilt — z.B. 300–500 Wörter mit Überlappung. Ein Embedding-Modell (z.B. text-embedding-3 von OpenAI oder ein lokal betriebenes Modell) wandelt jeden Chunk in einen Vektor um.

④ Indexierung & Retrieval — Die Vektoren landen in einer Vektordatenbank (Chroma, Weaviate, Qdrant, pgvector). Bei einer Nutzeranfrage wird deren Vektor berechnet und die ähnlichsten Chunks herausgesucht — entweder rein semantisch oder als Hybrid mit klassischer Schlüsselwortsuche (BM25).

⑤ RAG-Pipeline & LLM — Die gefundenen Chunks werden als Kontext in den Prompt an das LLM (z.B. Claude) eingefügt. Das LLM beantwortet die Frage ausschließlich auf Basis dieser Kontextdokumente — so bleiben Antworten nachvollziehbar und quellenbasiert.

⑥ Antwort & Qualitätssicherung — Antworten sollten mit Quellenangaben versehen werden. Frameworks wie RAGAS messen automatisch Retrieval-Qualität und Antworttreue. Nutzerfeedback fließt in die Verbesserung von Chunking-Strategie und Prompts zurück.

interfaze.ai

Paperless.io