Import Pipeline

Standard

Bearbeiten

Standard-Pipeline: Detect → Extract → Chunk → Embed → Analyze

Quelle: /var/www/nextcloud/data/root/files/Documents Formate: .pdf, .docx, .pptx, .md, .txt

Pipeline-Schritte

Detect Aktiv
Dateien scannen
hash_algorithm: sha256
Extract Aktiv
Text extrahieren
ocr_enabled: ja ocr_language: deu
Chunk Aktiv
Semantisch teilen
min_size: 100 max_size: 2000 overlap: 0.1
Embed Aktiv
Vektorisieren
model: mxbai-embed-large collection: documents dimensions: 1024
Analyze Inaktiv
Semantik analysieren
extract_entities: ja extract_relations: ja classify_taxonomy: ja model: claude-3-haiku-20240307