Pipeline: Standard

Bearbeiten

Pipeline-Schritte

# Schritt Phase Modell Zielspeicher Konfiguration
1 Erkennung
Dateien scannen und Format prüfen
Vorverarbeitung - - {"hash_algorithm":"sha256"}
2 Textextraktion
Text extrahieren, OCR für Bilder mit Text
Vorverarbeitung - - {"ocr_enabled":true,"ocr_language":"deu"}
3 Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz
Vorverarbeitung - ki_content.chunks {"min_size":100,"max_size":2000,"overlap":0.1}
4 Vektorisierung
Embeddings erstellen für Vektor-Suche
Speicherung mxbai-embed-large (1024-dim) Qdrant: {"collection":"documents","dimensions":1024}
5 Kombinierte Analyse
Entitäten, Relationen und Taxonomie in einem Schritt
Analyse ki_content.chunk_entities, .chunk_semantics {"extract_entities":true,"extract_relations":true,"classify_taxonomy":true}

Ausführungen

Noch keine Ausführungen vorhanden.