Pipeline: Standard
- Quelle:
- Dateitypen:
Pipeline-Schritte
| # | Schritt | Phase | Modell | Zielspeicher | Konfiguration |
|---|---|---|---|---|---|
| 1 |
Erkennung
Dateien scannen und Format prüfen |
Vorverarbeitung | - | - |
{"hash_algorithm":"sha256"}
|
| 2 |
Textextraktion
Text extrahieren, OCR für Bilder mit Text |
Vorverarbeitung | - | - |
{"ocr_enabled":true,"ocr_language":"deu"}
|
| 3 |
Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz |
Vorverarbeitung | - |
ki_content.chunks
|
{"min_size":100,"max_size":2000,"overlap":0.1}
|
| 4 |
Vektorisierung
Embeddings erstellen für Vektor-Suche |
Speicherung | mxbai-embed-large (1024-dim) | Qdrant: |
{"collection":"documents","dimensions":1024}
|
| 5 |
Kombinierte Analyse
Entitäten, Relationen und Taxonomie in einem Schritt |
Analyse |
ki_content.chunk_entities, .chunk_semantics
|
{"extract_entities":true,"extract_relations":true,"classify_taxonomy":true}
|
Ausführungen
Noch keine Ausführungen vorhanden.