Erstellt: 2025-12-24 | Aktualisiert: 2025-12-24

Chunking (Phase 2-3)

Ziel

Der gespeicherte Volltext wird in explizite Struktureinheiten zerlegt und daraus technisch handhabbare Verarbeitungseinheiten (Chunks) erzeugt. Chunking ist eine technische Maßnahme, keine semantische Interpretation.

Phase 2: Strukturelle Zerlegung

Seitenzerlegung

Semantische Abschnitte

Phase 3: Chunk-Erzeugung

Chunking-Regeln

ParameterWertBeschreibung
chunk_size500-800 TokenZielgröße pro Chunk
overlap50-100 TokenÜberlappung für Kontextstabilisierung
max_embed_chars800 ZeichenLimit für mxbai-embed-large

Erzeugungsregeln

Semantische Rolle

Jedem Chunk wird eine semantische Rolle zugewiesen:

Chunk-Metadaten

Beteiligte Komponenten

KomponentePfadFunktion
chunk_document()pipeline/chunk.pyChunking-Logik
chunks-Tabelleki_content.chunksChunk-Speicherung (SQL = Source of Truth)

Datenbank-Schema

chunks:
  id, document_id, section_id, chunk_index, content,
  token_count, heading_path, semantic_role, metadata,
  qdrant_id, created_at

Prüfbedingungen für Supervision