Pipeline: Vollständiger RAG-Prozess
- Quelle:
- Dateitypen:
Pipeline-Schritte
| # | Schritt | Phase | Modell | Zielspeicher | Konfiguration |
|---|---|---|---|---|---|
| 1 |
Erkennung
Dateien scannen und Format prüfen |
Vorverarbeitung | - | - |
{"description":"Phase 0: Dateityp erkennen (MIME, Extension)","phase":"0-import"}
|
| 2 |
Validierung
Datei-Prüfung auf Lesbarkeit und Korruption |
Vorverarbeitung | - | - |
{"description":"Phase 0: Datei validieren (Größe, Format, Integrität)","phase":"0-import"}
|
| 3 |
Textextraktion
Text extrahieren, OCR für Bilder mit Text |
Vorverarbeitung | - | - |
{"description":"Phase 1: Inhalt extrahieren (Text, Strukturelemente)","phase":"1-extract"}
|
| 4 |
Seitenzerlegung
PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse |
Vorverarbeitung | - |
ki_content.document_pages
|
{"description":"Phase 2: In physische Seiten aufteilen (SQL-Speicherung)","phase":"2-sql"}
|
| 5 |
Bildanalyse
Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen |
Vorverarbeitung |
ki_content.document_pages (vision_analysis)
|
{"description":"Phase 2: Visuelle Analyse (Bilder, Diagramme, Layout)","phase":"2-sql"}
|
|
| 6 |
Strukturerkennung
Überschriften, Listen und Hierarchie erkennen |
Vorverarbeitung | - |
ki_content.document_sections
|
{"description":"Phase 3: Struktur analysieren (Überschriften, Absätze)","phase":"3-structure"}
|
| 7 |
Abschnitte
Logische Dokumentgliederung nach Struktur |
Vorverarbeitung | - |
ki_content.document_sections
|
{"description":"Phase 3: In logische Segmente aufteilen","phase":"3-structure"}
|
| 8 |
Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz |
Vorverarbeitung | - |
ki_content.chunks
|
{"description":"Phase 4: Semantisches Chunking (500-1000 Tokens)","phase":"4-chunking"}
|
| 9 |
DB-Speicherung
Dokument, Seiten und Chunks in MariaDB speichern |
Speicherung | - |
ki_content.documents, .document_pages, .chunks
|
{"description":"Phase 4: Metadaten in MariaDB speichern","phase":"4-chunking"}
|
| 10 |
Vektorisierung
Embeddings erstellen für Vektor-Suche |
Speicherung | mxbai-embed-large (1024-dim) | Qdrant: |
{"description":"Phase 4: Embeddings generieren (nomic-embed-text)","phase":"4-embedding"}
|
| 11 |
Collection
Qdrant-Collection einrichten falls nötig |
Speicherung | - |
Qdrant: {collection}
|
{"description":"Phase 4: Qdrant Collection einrichten","phase":"4-vector"}
|
| 12 |
Vektorspeicherung
Vektoren in Qdrant mit MariaDB-ID als Referenz |
Speicherung | - |
Qdrant: {collection}
|
{"description":"Phase 4: Vektoren in Qdrant speichern","phase":"4-vector"}
|
| 13 |
Index-Optimierung
HNSW-Index für schnelle Suche optimieren |
Speicherung | - |
Qdrant: {collection}
|
{"description":"Phase 4: HNSW-Index optimieren","phase":"4-vector"}
|
| 14 |
Entitäten-Extraktion
Personen, Organisationen, Konzepte, Methoden erkennen |
Analyse |
ki_content.chunk_entities
|
{"description":"Phase 5: Entitäten extrahieren (Personen, Konzepte, Methoden)","phase":"5-semantic"}
|
|
| 15 |
Beziehungs-Extraktion
Relationen zwischen Entitäten extrahieren |
Analyse |
ki_content.entity_relations
|
{"description":"Phase 5: Relationen zwischen Entitäten extrahieren","phase":"5-semantic"}
|
|
| 16 |
Semantik-Analyse
Bedeutungs-Analyse, Konzepte und Definitionen |
Analyse |
ki_content.chunk_semantics
|
{"description":"Phase 6-7: Semantische Analyse und Normalisierung","phase":"6-normalize"}
|
|
| 17 |
Taxonomie-Aufbau
Hierarchische Kategorisierung aufbauen |
Analyse |
ki_content.chunk_taxonomy, .taxonomy_terms
|
{"description":"Phase 9-10: Taxonomie aufbauen und zuordnen","phase":"9-taxonomy"}
|
|
| 18 |
Kombinierte Analyse
Entitäten, Relationen und Taxonomie in einem Schritt |
Analyse |
ki_content.chunk_entities, .chunk_semantics
|
{"description":"Phase 11: Gesamtanalyse und Qualitätsprüfung","phase":"11-analyze"}
|
|
| 19 |
Zusammenfassung
Dokument- und Seiten-Zusammenfassungen erstellen |
Analyse |
ki_content.documents (summary), .document_pages
|
{"description":"Phase 11: Zusammenfassungen erstellen","phase":"11-analyze"}
|
|
| 20 |
Fragengenerierung
Beispielfragen für RAG-Chat erstellen |
Analyse |
ki_content.generated_questions
|
{"description":"Phase 11: Q&A-Paare generieren","phase":"11-analyze"}
|
|
| 21 |
Abschluss
Status finalisieren und Job beenden |
Analyse | - |
ki_content.documents (status)
|
{"description":"Phase 12: Pipeline abschließen, Status setzen","phase":"12-finalize"}
|
Ausführungen
| ID | Status | Gestartet | Beendet | Dokumente | Chunks |
|---|---|---|---|---|---|
| #2 | completed | 2025-12-27 14:00:00 | 2025-12-27 08:15:48 | 14/14 | 1386 |
| #5 | failed | 2025-12-27 11:42:38 | 2025-12-27 11:50:00 | 0/0 | 0 |
| #4 | cancelled | 2025-12-27 11:18:00 | 2025-12-27 12:35:00 | 2/5 | 137 |
| #3 | failed | 2025-12-27 09:54:20 | 2025-12-27 09:54:25 | 0/0 | 0 |
| #1 | failed | 2025-12-27 00:42:58 | 2025-12-27 12:00:00 | 0/0 | 0 |