Kontext-Aufbau (Phase A4-A5)
Phase A4: Kontext-Selektion und Priorisierung
Ziel
Zusammenstellung eines sinnvollen, begrenzten Arbeitskontextes aus den nachgeladenen Chunks.
Ablauf
- Chunks werden priorisiert nach:
- Relevanz-Score (aus Vorselektion)
- Dokumentenvielfalt (nicht alle Chunks aus einem Dokument)
- Redundanzfreiheit (keine inhaltlichen Dopplungen)
- Auswahl erfolgt bis zum:
- Token-Limit (Modell-abhängig)
- Kontext-Limit (konfiguriert als
top_k)
- Reihenfolge wird festgelegt und stabilisiert
Abgrenzung
- Noch keine Textgenerierung
- Keine semantische Umformung
- Reine Selektion und Ordnung
Ergebnisartefakte
- Geordnete Chunk-Liste für Kontext
- Token-Summe des Kontexts
Phase A5: Kontext-Formalisierung
Ziel
Übersetzung der ausgewählten Chunks in ein LLM-verwertbares Kontextformat.
Ablauf
- Jeder Chunk wird versehen mit:
- Quellenkennzeichnung (z.B.
[Quelle 1]) - Dokumentenreferenz (Dateiname, Seite)
- Quellenkennzeichnung (z.B.
- Trennmarker werden eingefügt zwischen Chunks
- Token-Limits werden technisch geprüft
Kontextformat
[Quelle 1: Systemisches Coaching.pdf, S. 12] Die Auftragsklärung ist der erste Schritt im Coaching-Prozess... --- [Quelle 2: Methodenhandbuch.pdf, S. 45] Skalenfragen ermöglichen eine differenzierte Einschätzung... --- [Quelle 3: Grundlagen der Systemik.pdf, S. 8] Ressourcenorientierung bedeutet, den Fokus auf vorhandene Stärken...
Ergebnisartefakte
- Formatierter Kontextblock
- Quellenliste mit Referenzen
- Token-Count des finalen Kontexts
Beteiligte Komponenten
| Komponente | Pfad | Funktion |
|---|---|---|
| build_context() | pipeline/rag.py | Kontext-Zusammenstellung |
| format_sources() | pipeline/rag.py | Quellenformatierung |
Prüfbedingungen für Supervision
- Kontextaufbau ist deterministisch nachvollziehbar
- Jede Kontextpassage ist eindeutig einer Quelle zugeordnet
- Token-Limit wird nicht überschritten
- Quellenliste ist vollständig und korrekt