Pipeline: Granulare RAG-Pipeline v2

Bearbeiten

Pipeline-Schritte

# Schritt Phase Modell Zielspeicher Konfiguration
1 Erkennung
Dateien scannen und Format prüfen
Vorverarbeitung - - {"check_extension":true,"supported":["pdf","docx","pptx","md","txt"]}
2 Warteschlange
Dokument zur Verarbeitung einreihen
Vorverarbeitung - - {"status":"pending"}
3 Textextraktion
Text extrahieren, OCR für Bilder mit Text
Vorverarbeitung - - {"ocr_enabled":true,"ocr_lang":"deu"}
4 Hash-Berechnung
SHA256-Hash für Duplikat-Erkennung berechnen
Vorverarbeitung - - {"algorithm":"sha256"}
5 Seitenausrichtung
Seiten-Rotation per OSD korrigieren
Vorverarbeitung - - {"osd_confidence":2,"use_vision_fallback":false}
6 Dokument-Eintrag
Dokument-Datensatz in Datenbank erstellen
Speicherung - ki_content.documents {"table":"documents"}
7 Seiten-Speicherung
Einzelseiten in Datenbank speichern
Speicherung - ki_content.document_pages {"table":"document_pages"}
8 Bild-Analyse
Seiten via Vision-LLM analysieren
Analyse - {"dpi":150}
9 Vision-Speicherung
Vision-Analyse-Ergebnisse speichern
Speicherung - ki_content.document_pages (vision_analysis) {"store_in":"document_pages.vision_analysis"}
10 Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz
Vorverarbeitung - ki_content.chunks {"max_size":2000,"min_size":100,"overlap_percent":10}
11 Chunk-Speicherung
Textbausteine in Datenbank speichern
Speicherung - ki_content.chunks {"table":"chunks"}
12 Anreicherung
Überschriften und Keywords extrahieren
Vorverarbeitung - ki_content.chunks (headings, keywords) {"extract_headings":true,"extract_keywords":true}
13 Vektorisierung
Embeddings erstellen für Vektor-Suche
Speicherung mxbai-embed-large (1024-dim) Qdrant: {"dimension":1024}
14 Vektor-Speicherung
Embedding-Vektoren in Qdrant speichern
Speicherung - Qdrant: documents {"collection":"documents"}
15 Status-Update
Dokument-Status aktualisieren
Speicherung - ki_content.documents (status) {"status":"embedded"}
16 Entitäten-Extraktion
Personen, Organisationen, Konzepte, Methoden erkennen
Analyse ki_content.chunk_entities {"types":["PERSON","ORG","CONCEPT","METHODE"]}
17 Entitäten-Speicherung
Extrahierte Entitäten in Datenbank speichern
Wissen - ki_content.entities, .document_entities {"table":"entities","link_table":"document_entities"}
18 Entitäten-Normalisierung
Duplikate zusammenführen, Synonyme verknüpfen
Wissen - ki_content.entity_synonyms {"merge_similar":true,"confidence_threshold":0.8}
19 Beziehungs-Extraktion
Relationen zwischen Entitäten extrahieren
Analyse ki_content.entity_relations {"types":["RELATES_TO","PART_OF","USES","TEACHES"]}
20 Beziehungs-Speicherung
Extrahierte Relationen in Datenbank speichern
Wissen - ki_content.entity_relations {"table":"entity_relations"}
21 Taxonomie-Aufbau
Hierarchische Kategorisierung aufbauen
Analyse ki_content.chunk_taxonomy, .taxonomy_terms {"table":"taxonomy_terms","auto_classify":true}
22 Ontologie-Klassifikation
Entitäten in Ontologie-Klassen einordnen
Wissen ki_content.ontology_classes {"table":"ontology_classes"}
23 Chunk-Entitäten-Verknüpfung
Chunks mit erkannten Entitäten verknüpfen
Wissen - ki_content.chunk_entities {"table":"chunk_entities"}
24 Chunk-Taxonomie
Chunks mit Taxonomie-Kategorien verknüpfen
Wissen - ki_content.chunk_taxonomy {"table":"chunk_taxonomy"}
25 Entitäten-Taxonomie
Entitäten mit Taxonomie-Pfaden verknüpfen
Wissen - ki_content.entity_taxonomy_mapping {"table":"entity_taxonomy_mapping"}
26 Chunk-Semantik
Semantische Analyse-Ergebnisse pro Chunk speichern
Wissen - ki_content.chunk_semantics {"table":"chunk_semantics"}
27 Abschluss
Status finalisieren und Job beenden
Analyse - ki_content.documents (status) {"status":"completed","cleanup":true}

Ausführungen

ID Status Gestartet Beendet Dokumente Chunks
#6 completed 2025-12-27 12:30:00 2025-12-27 14:36:16 7/7 323