Pipeline: Standard

Standard-Pipeline
Bearbeiten

Standard-Pipeline: Detect → Extract → Chunk → Embed → Analyze

Quelle /var/www/nextcloud/data/root/files/Documents
Dateitypen .pdf, .docx, .pptx, .md, .txt
Erstellt 2025-12-22 09:08:46
Aktualisiert 2025-12-22 09:08:46

Pipeline-Schritte

# Schritt Phase Modell Zielspeicher Konfiguration
1 Erkennung
Dateien scannen und Format prüfen
Vorverarbeitung - - {"hash_algorithm":"sha256"}
2 Textextraktion
Text extrahieren, OCR für Bilder mit Text
Vorverarbeitung - - {"ocr_enabled":true,"ocr_language":"deu"}
3 Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz
Vorverarbeitung - ki_content.chunks {"min_size":100,"max_size":2000,"overlap":0.1}
4 Vektorisierung
Embeddings mit mxbai-embed-large (1024-dim)
Speicherung - {"collection":"documents","dimensions":1024}
5 Analyse (Legacy)
Kombinierte Analyse (veraltet)
Analyse ki_content.chunk_entities, .chunk_semantics {"extract_entities":true,"extract_relations":true,"classify_taxonomy":true}

Ausführungen

Noch keine Ausführungen vorhanden.