Vektorspeicherung

Vektorspeicherung (Phase 4)

Ziel

Chunks werden in einen mathematischen Ähnlichkeitsraum überführt. Die Vektordatenbank dient ausschließlich dem Auffinden inhaltlich ähnlicher Chunks. Sie ist kein Wissensspeicher und trägt keine semantische Wahrheit.

Vektorisierung

Jeder Chunk wird genau einmal eingebettet pro Modellversion
Einbettung mit festgelegtem, versioniertem Embedding-Modell
Keine semantische Anreicherung vor der Einbettung
Modellversion und Parameter werden dokumentiert

Qdrant-Konfiguration

Eigenschaft	Wert
Host	localhost:6333
Dimensionen	1536
Distance Metric	Cosine
Collections	documents, system-docs

Payload-Struktur (erlaubt)

{
  "chunk_id": 1234,
  "document_id": 42,
  "section_id": 15,
  "language": "de",
  "document_type": "pdf"
}

Payload enthält KEINE

Entitäten
Relationen
Aussagen
Ontologie- oder Taxonomieelemente
Provenienzinformationen

Rolle der Vektordatenbank

Wird genutzt für	Wird NICHT genutzt für
Ähnlichkeitssuche	Faktenhaltung
Kontextretrieval	Schlussfolgerung
Vorfilterung relevanter Chunks	Konsistenzprüfung

Abgrenzung zur Semantik

Die Vektordatenbank enthält keine Bedeutung
Sie kennt keine Wahrheit, keine Gültigkeit, keine Herkunft
Ähnlichkeit ist kein Wissensbegriff, sondern ein Distanzmaß
Semantische Interpretation erfolgt ausschließlich in späteren Phasen

Beteiligte Komponenten

Komponente	Pfad	Funktion
store_in_qdrant()	`pipeline/embed.py:47`	Speicherung via REST API
Qdrant REST API	`PUT /collections/{name}/points`	Upsert Points

Prüfbedingungen für Supervision

Jeder gespeicherte Vektor referenziert exakt einen Chunk
Kein Chunk besitzt mehr als einen Vektor pro Modellversion
Die Vektordatenbank enthält keine inhaltlichen oder semantischen Daten
Löschung eines Chunks erzwingt Löschung des referenzierten Vektors