Pipeline: Schulungsunterlagen
Vollständige 17-Schritte-Pipeline für PDF-Schulungsunterlagen: Preprocessing, Embedding, Analyse
Quelle
/var/www/nextcloud/data/root/files/Documents
Dateitypen
.pdf
Erstellt
2025-12-22 09:33:05
Aktualisiert
2025-12-22 09:33:05
Pipeline-Schritte
| # | Schritt | Phase | Modell | Zielspeicher | Konfiguration |
|---|---|---|---|---|---|
| 1 |
Erkennung
Dateien scannen und Format prüfen |
Vorverarbeitung | - | - |
{"formats":[".pdf"],"recursive":true}
|
| 2 |
Validierung
Datei-Prüfung auf Lesbarkeit und Korruption |
Vorverarbeitung | - | - |
{"check_readable":true,"min_pages":1,"max_size_mb":100}
|
| 3 |
Seitenzerlegung
PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse |
Vorverarbeitung | - |
ki_content.document_pages
|
{"output_format":"png","dpi":150,"store_images":true}
|
| 4 |
Bildanalyse
Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen |
Vorverarbeitung |
ki_content.document_pages (vision_analysis)
|
{"detect_images":true,"detect_charts":true,"detect_tables":true}
|
|
| 5 |
Textextraktion
Text extrahieren, OCR für Bilder mit Text |
Vorverarbeitung | - | - |
{"ocr_enabled":true,"ocr_language":"deu","ocr_for_images":true,"clean_text":true}
|
| 6 |
Strukturerkennung
Überschriften, Listen und Hierarchie erkennen |
Vorverarbeitung | - |
ki_content.document_sections
|
{"detect_headings":true,"heading_levels":[1,2,3],"detect_lists":true,"detect_tables":true}
|
| 7 |
Abschnitte
Logische Dokumentgliederung nach Struktur |
Vorverarbeitung | - |
ki_content.document_sections
|
{"by_headings":true,"by_pages":true,"preserve_context":true}
|
| 8 |
Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz |
Vorverarbeitung | - |
ki_content.chunks
|
{"max_tokens":800,"min_tokens":100,"overlap_percent":10,"include_page_ref":true}
|
| 9 |
DB-Speicherung
Dokument, Seiten und Chunks in MariaDB speichern |
Speicherung | - |
ki_content.documents, .document_pages, .chunks
|
{"store_document":true,"store_pages":true,"store_chunks":true,"store_headings":true}
|
| 10 |
Vektorisierung
Embeddings mit mxbai-embed-large (1024-dim) |
Speicherung | - |
{"dimensions":1024,"batch_size":10}
|
|
| 11 |
Collection
Qdrant-Collection einrichten falls nötig |
Speicherung | - |
Qdrant: schulungsunterlagen
|
{"collection":"schulungsunterlagen","distance":"cosine"}
|
| 12 |
Vektorspeicherung
Vektoren in Qdrant mit MariaDB-ID als Referenz |
Speicherung | - |
Qdrant: {collection}
|
{"include_mariadb_id":true,"include_page_number":true,"include_heading_path":true}
|
| 13 |
Index-Optimierung
HNSW-Index für schnelle Suche optimieren |
Speicherung | - |
Qdrant: {collection}
|
{"hnsw_ef":128,"hnsw_m":16}
|
| 14 |
Seiten-Wissen
Pro Seite: Entitäten → Semantik → Ontologie → Taxonomie |
Wissen |
ki_content.page_knowledge, .entities, .entity_semantics
|
{"extract":["entity","semantic","ontology","taxonomy"]}
|
|
| 15 |
Abschnitt-Wissen
Pro Kapitel: Aggregierte Wissensrepräsentation |
Wissen |
ki_content.section_knowledge
|
{"extract":["entity","semantic","ontology","taxonomy"]}
|
|
| 16 |
Dokument-Wissen
Konsolidierte Gesamtsicht des Dokuments |
Wissen |
ki_content.document_knowledge
|
{"extract":["entity","semantic","ontology","taxonomy"],"consolidate":true}
|
|
| 17 |
Wissens-Validierung
Abgleich mit DB, Duplikate zusammenführen, neue validieren |
Wissen |
ki_content.entities (merged)
|
{"validate_new":true,"merge_duplicates":true}
|
|
| 18 |
Zusammenfassung
Dokument- und Seiten-Zusammenfassungen erstellen |
Analyse |
ki_content.documents (summary), .document_pages
|
{"per_page":true,"per_document":true,"max_length":500}
|
|
| 19 |
Fragengenerierung
Beispielfragen für RAG-Chat erstellen |
Analyse |
ki_content.generated_questions
|
{"count":5,"types":["faktisch","konzeptuell","anwendung"]}
|
|
| 20 |
Abschluss
Status finalisieren und Job beenden |
Analyse | - |
ki_content.documents (status)
|
{"update_status":true,"cleanup_temp":true}
|
Ausführungen
Noch keine Ausführungen vorhanden.