Pipeline: Schulungsunterlagen

Bearbeiten

Vollständige 17-Schritte-Pipeline für PDF-Schulungsunterlagen: Preprocessing, Embedding, Analyse

Quelle /var/www/nextcloud/data/root/files/Documents
Dateitypen .pdf
Erstellt 2025-12-22 09:33:05
Aktualisiert 2025-12-22 09:33:05

Pipeline-Schritte

# Schritt Phase Modell Zielspeicher Konfiguration
1 Erkennung
Dateien scannen und Format prüfen
Vorverarbeitung - - {"formats":[".pdf"],"recursive":true}
2 Validierung
Datei-Prüfung auf Lesbarkeit und Korruption
Vorverarbeitung - - {"check_readable":true,"min_pages":1,"max_size_mb":100}
3 Seitenzerlegung
PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse
Vorverarbeitung - ki_content.document_pages {"output_format":"png","dpi":150,"store_images":true}
4 Bildanalyse
Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen
Vorverarbeitung ki_content.document_pages (vision_analysis) {"detect_images":true,"detect_charts":true,"detect_tables":true}
5 Textextraktion
Text extrahieren, OCR für Bilder mit Text
Vorverarbeitung - - {"ocr_enabled":true,"ocr_language":"deu","ocr_for_images":true,"clean_text":true}
6 Strukturerkennung
Überschriften, Listen und Hierarchie erkennen
Vorverarbeitung - ki_content.document_sections {"detect_headings":true,"heading_levels":[1,2,3],"detect_lists":true,"detect_tables":true}
7 Abschnitte
Logische Dokumentgliederung nach Struktur
Vorverarbeitung - ki_content.document_sections {"by_headings":true,"by_pages":true,"preserve_context":true}
8 Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz
Vorverarbeitung - ki_content.chunks {"max_tokens":800,"min_tokens":100,"overlap_percent":10,"include_page_ref":true}
9 DB-Speicherung
Dokument, Seiten und Chunks in MariaDB speichern
Speicherung - ki_content.documents, .document_pages, .chunks {"store_document":true,"store_pages":true,"store_chunks":true,"store_headings":true}
10 Vektorisierung
Embeddings mit mxbai-embed-large (1024-dim)
Speicherung - {"dimensions":1024,"batch_size":10}
11 Collection
Qdrant-Collection einrichten falls nötig
Speicherung - Qdrant: schulungsunterlagen {"collection":"schulungsunterlagen","distance":"cosine"}
12 Vektorspeicherung
Vektoren in Qdrant mit MariaDB-ID als Referenz
Speicherung - Qdrant: {collection} {"include_mariadb_id":true,"include_page_number":true,"include_heading_path":true}
13 Index-Optimierung
HNSW-Index für schnelle Suche optimieren
Speicherung - Qdrant: {collection} {"hnsw_ef":128,"hnsw_m":16}
14 Seiten-Wissen
Pro Seite: Entitäten → Semantik → Ontologie → Taxonomie
Wissen ki_content.page_knowledge, .entities, .entity_semantics {"extract":["entity","semantic","ontology","taxonomy"]}
15 Abschnitt-Wissen
Pro Kapitel: Aggregierte Wissensrepräsentation
Wissen ki_content.section_knowledge {"extract":["entity","semantic","ontology","taxonomy"]}
16 Dokument-Wissen
Konsolidierte Gesamtsicht des Dokuments
Wissen ki_content.document_knowledge {"extract":["entity","semantic","ontology","taxonomy"],"consolidate":true}
17 Wissens-Validierung
Abgleich mit DB, Duplikate zusammenführen, neue validieren
Wissen ki_content.entities (merged) {"validate_new":true,"merge_duplicates":true}
18 Zusammenfassung
Dokument- und Seiten-Zusammenfassungen erstellen
Analyse ki_content.documents (summary), .document_pages {"per_page":true,"per_document":true,"max_length":500}
19 Fragengenerierung
Beispielfragen für RAG-Chat erstellen
Analyse ki_content.generated_questions {"count":5,"types":["faktisch","konzeptuell","anwendung"]}
20 Abschluss
Status finalisieren und Job beenden
Analyse - ki_content.documents (status) {"update_status":true,"cleanup_temp":true}

Ausführungen

Noch keine Ausführungen vorhanden.