Vektorspeicherung (Phase 4)
Ziel
Chunks werden in einen mathematischen Ähnlichkeitsraum überführt. Die Vektordatenbank dient ausschließlich dem Auffinden inhaltlich ähnlicher Chunks. Sie ist kein Wissensspeicher und trägt keine semantische Wahrheit.
Vektorisierung
- Jeder Chunk wird genau einmal eingebettet pro Modellversion
- Einbettung mit festgelegtem, versioniertem Embedding-Modell
- Keine semantische Anreicherung vor der Einbettung
- Modellversion und Parameter werden dokumentiert
Qdrant-Konfiguration
| Eigenschaft | Wert |
| Host | localhost:6333 |
| Dimensionen | 1536 |
| Distance Metric | Cosine |
| Collections | documents, system-docs |
Payload-Struktur (erlaubt)
{
"chunk_id": 1234,
"document_id": 42,
"section_id": 15,
"language": "de",
"document_type": "pdf"
}
Payload enthält KEINE
- Entitäten
- Relationen
- Aussagen
- Ontologie- oder Taxonomieelemente
- Provenienzinformationen
Rolle der Vektordatenbank
| Wird genutzt für | Wird NICHT genutzt für |
| Ähnlichkeitssuche | Faktenhaltung |
| Kontextretrieval | Schlussfolgerung |
| Vorfilterung relevanter Chunks | Konsistenzprüfung |
Abgrenzung zur Semantik
- Die Vektordatenbank enthält keine Bedeutung
- Sie kennt keine Wahrheit, keine Gültigkeit, keine Herkunft
- Ähnlichkeit ist kein Wissensbegriff, sondern ein Distanzmaß
- Semantische Interpretation erfolgt ausschließlich in späteren Phasen
Beteiligte Komponenten
| Komponente | Pfad | Funktion |
| store_in_qdrant() | pipeline/embed.py:47 | Speicherung via REST API |
| Qdrant REST API | PUT /collections/{name}/points | Upsert Points |
Prüfbedingungen für Supervision
- Jeder gespeicherte Vektor referenziert exakt einen Chunk
- Kein Chunk besitzt mehr als einen Vektor pro Modellversion
- Die Vektordatenbank enthält keine inhaltlichen oder semantischen Daten
- Löschung eines Chunks erzwingt Löschung des referenzierten Vektors