Pipeline: Vollständiger RAG-Prozess

Bearbeiten

Pipeline-Schritte

# Schritt Phase Modell Zielspeicher Konfiguration
1 Erkennung
Dateien scannen und Format prüfen
Vorverarbeitung - - {"description":"Phase 0: Dateityp erkennen (MIME, Extension)","phase":"0-import"}
2 Validierung
Datei-Prüfung auf Lesbarkeit und Korruption
Vorverarbeitung - - {"description":"Phase 0: Datei validieren (Größe, Format, Integrität)","phase":"0-import"}
3 Textextraktion
Text extrahieren, OCR für Bilder mit Text
Vorverarbeitung - - {"description":"Phase 1: Inhalt extrahieren (Text, Strukturelemente)","phase":"1-extract"}
4 Seitenzerlegung
PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse
Vorverarbeitung - ki_content.document_pages {"description":"Phase 2: In physische Seiten aufteilen (SQL-Speicherung)","phase":"2-sql"}
5 Bildanalyse
Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen
Vorverarbeitung ki_content.document_pages (vision_analysis) {"description":"Phase 2: Visuelle Analyse (Bilder, Diagramme, Layout)","phase":"2-sql"}
6 Strukturerkennung
Überschriften, Listen und Hierarchie erkennen
Vorverarbeitung - ki_content.document_sections {"description":"Phase 3: Struktur analysieren (Überschriften, Absätze)","phase":"3-structure"}
7 Abschnitte
Logische Dokumentgliederung nach Struktur
Vorverarbeitung - ki_content.document_sections {"description":"Phase 3: In logische Segmente aufteilen","phase":"3-structure"}
8 Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz
Vorverarbeitung - ki_content.chunks {"description":"Phase 4: Semantisches Chunking (500-1000 Tokens)","phase":"4-chunking"}
9 DB-Speicherung
Dokument, Seiten und Chunks in MariaDB speichern
Speicherung - ki_content.documents, .document_pages, .chunks {"description":"Phase 4: Metadaten in MariaDB speichern","phase":"4-chunking"}
10 Vektorisierung
Embeddings erstellen für Vektor-Suche
Speicherung mxbai-embed-large (1024-dim) Qdrant: {"description":"Phase 4: Embeddings generieren (nomic-embed-text)","phase":"4-embedding"}
11 Collection
Qdrant-Collection einrichten falls nötig
Speicherung - Qdrant: {collection} {"description":"Phase 4: Qdrant Collection einrichten","phase":"4-vector"}
12 Vektorspeicherung
Vektoren in Qdrant mit MariaDB-ID als Referenz
Speicherung - Qdrant: {collection} {"description":"Phase 4: Vektoren in Qdrant speichern","phase":"4-vector"}
13 Index-Optimierung
HNSW-Index für schnelle Suche optimieren
Speicherung - Qdrant: {collection} {"description":"Phase 4: HNSW-Index optimieren","phase":"4-vector"}
14 Entitäten-Extraktion
Personen, Organisationen, Konzepte, Methoden erkennen
Analyse ki_content.chunk_entities {"description":"Phase 5: Entitäten extrahieren (Personen, Konzepte, Methoden)","phase":"5-semantic"}
15 Beziehungs-Extraktion
Relationen zwischen Entitäten extrahieren
Analyse ki_content.entity_relations {"description":"Phase 5: Relationen zwischen Entitäten extrahieren","phase":"5-semantic"}
16 Semantik-Analyse
Bedeutungs-Analyse, Konzepte und Definitionen
Analyse ki_content.chunk_semantics {"description":"Phase 6-7: Semantische Analyse und Normalisierung","phase":"6-normalize"}
17 Taxonomie-Aufbau
Hierarchische Kategorisierung aufbauen
Analyse ki_content.chunk_taxonomy, .taxonomy_terms {"description":"Phase 9-10: Taxonomie aufbauen und zuordnen","phase":"9-taxonomy"}
18 Kombinierte Analyse
Entitäten, Relationen und Taxonomie in einem Schritt
Analyse ki_content.chunk_entities, .chunk_semantics {"description":"Phase 11: Gesamtanalyse und Qualitätsprüfung","phase":"11-analyze"}
19 Zusammenfassung
Dokument- und Seiten-Zusammenfassungen erstellen
Analyse ki_content.documents (summary), .document_pages {"description":"Phase 11: Zusammenfassungen erstellen","phase":"11-analyze"}
20 Fragengenerierung
Beispielfragen für RAG-Chat erstellen
Analyse ki_content.generated_questions {"description":"Phase 11: Q&A-Paare generieren","phase":"11-analyze"}
21 Abschluss
Status finalisieren und Job beenden
Analyse - ki_content.documents (status) {"description":"Phase 12: Pipeline abschließen, Status setzen","phase":"12-finalize"}

Ausführungen

ID Status Gestartet Beendet Dokumente Chunks
#2 completed 2025-12-27 14:00:00 2025-12-27 08:15:48 14/14 1386
#5 failed 2025-12-27 11:42:38 2025-12-27 11:50:00 0/0 0
#4 cancelled 2025-12-27 11:18:00 2025-12-27 12:35:00 2/5 137
#3 failed 2025-12-27 09:54:20 2025-12-27 09:54:25 0/0 0
#1 failed 2025-12-27 00:42:58 2025-12-27 12:00:00 0/0 0