Pipeline: Schulungsunterlagen

Bearbeiten

Quelle:
Dateitypen:

Pipeline-Schritte

#	Schritt	Phase	Modell	Zielspeicher	Konfiguration
1	Erkennung Dateien scannen und Format prüfen	Vorverarbeitung	-	-	`{"formats":[".pdf"],"recursive":true}`
2	Validierung Datei-Prüfung auf Lesbarkeit und Korruption	Vorverarbeitung	-	-	`{"check_readable":true,"min_pages":1,"max_size_mb":100}`
3	Seitenzerlegung PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse	Vorverarbeitung	-	`ki_content.document_pages`	`{"output_format":"png","dpi":150,"store_images":true}`
4	Bildanalyse Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen	Vorverarbeitung		`ki_content.document_pages (vision_analysis)`	`{"detect_images":true,"detect_charts":true,"detect_tables":true}`
5	Textextraktion Text extrahieren, OCR für Bilder mit Text	Vorverarbeitung	-	-	`{"ocr_enabled":true,"ocr_language":"deu","ocr_for_images":true,"clean_text":true}`
6	Strukturerkennung Überschriften, Listen und Hierarchie erkennen	Vorverarbeitung	-	`ki_content.document_sections`	`{"detect_headings":true,"heading_levels":[1,2,3],"detect_lists":true,"detect_tables":true}`
7	Abschnitte Logische Dokumentgliederung nach Struktur	Vorverarbeitung	-	`ki_content.document_sections`	`{"by_headings":true,"by_pages":true,"preserve_context":true}`
8	Textbausteine Chunks erstellen (max 800 Token) mit Seitenreferenz	Vorverarbeitung	-	`ki_content.chunks`	`{"max_tokens":800,"min_tokens":100,"overlap_percent":10,"include_page_ref":true}`
9	DB-Speicherung Dokument, Seiten und Chunks in MariaDB speichern	Speicherung	-	`ki_content.documents, .document_pages, .chunks`	`{"store_document":true,"store_pages":true,"store_chunks":true,"store_headings":true}`
10	Vektorisierung Embeddings erstellen für Vektor-Suche	Speicherung	mxbai-embed-large (1024-dim)	Qdrant:	`{"dimensions":1024,"batch_size":10}`
11	Collection Qdrant-Collection einrichten falls nötig	Speicherung	-	`Qdrant: schulungsunterlagen`	`{"collection":"schulungsunterlagen","distance":"cosine"}`
12	Vektorspeicherung Vektoren in Qdrant mit MariaDB-ID als Referenz	Speicherung	-	`Qdrant: {collection}`	`{"include_mariadb_id":true,"include_page_number":true,"include_heading_path":true}`
13	Index-Optimierung HNSW-Index für schnelle Suche optimieren	Speicherung	-	`Qdrant: {collection}`	`{"hnsw_ef":128,"hnsw_m":16}`
18	Zusammenfassung Dokument- und Seiten-Zusammenfassungen erstellen	Analyse		`ki_content.documents (summary), .document_pages`	`{"per_page":true,"per_document":true,"max_length":500}`
19	Fragengenerierung Beispielfragen für RAG-Chat erstellen	Analyse		`ki_content.generated_questions`	`{"count":5,"types":["faktisch","konzeptuell","anwendung"]}`
20	Abschluss Status finalisieren und Job beenden	Analyse	-	`ki_content.documents (status)`	`{"update_status":true,"cleanup_temp":true}`

Ausführungen

Noch keine Ausführungen vorhanden.

Zurück zur Übersicht