Pipeline: Standard
Standard-PipelineStandard-Pipeline: Detect → Extract → Chunk → Embed → Analyze
Quelle
/var/www/nextcloud/data/root/files/Documents
Dateitypen
.pdf, .docx, .pptx, .md, .txt
Erstellt
2025-12-22 09:08:46
Aktualisiert
2025-12-22 09:08:46
Pipeline-Schritte
| # | Schritt | Phase | Modell | Zielspeicher | Konfiguration |
|---|---|---|---|---|---|
| 1 |
Erkennung
Dateien scannen und Format prüfen |
Vorverarbeitung | - | - |
{"hash_algorithm":"sha256"}
|
| 2 |
Textextraktion
Text extrahieren, OCR für Bilder mit Text |
Vorverarbeitung | - | - |
{"ocr_enabled":true,"ocr_language":"deu"}
|
| 3 |
Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz |
Vorverarbeitung | - |
ki_content.chunks
|
{"min_size":100,"max_size":2000,"overlap":0.1}
|
| 4 |
Vektorisierung
Embeddings mit mxbai-embed-large (1024-dim) |
Speicherung | - |
{"collection":"documents","dimensions":1024}
|
|
| 5 |
Analyse (Legacy)
Kombinierte Analyse (veraltet) |
Analyse |
ki_content.chunk_entities, .chunk_semantics
|
{"extract_entities":true,"extract_relations":true,"classify_taxonomy":true}
|
Ausführungen
Noch keine Ausführungen vorhanden.