Pipeline: Granulare RAG-Pipeline v2
- Quelle:
- Dateitypen:
Pipeline-Schritte
| # | Schritt | Phase | Modell | Zielspeicher | Konfiguration |
|---|---|---|---|---|---|
| 1 |
Erkennung
Dateien scannen und Format prüfen |
Vorverarbeitung | - | - |
{"check_extension":true,"supported":["pdf","docx","pptx","md","txt"]}
|
| 2 |
Warteschlange
Dokument zur Verarbeitung einreihen |
Vorverarbeitung | - | - |
{"status":"pending"}
|
| 3 |
Textextraktion
Text extrahieren, OCR für Bilder mit Text |
Vorverarbeitung | - | - |
{"ocr_enabled":true,"ocr_lang":"deu"}
|
| 4 |
Hash-Berechnung
SHA256-Hash für Duplikat-Erkennung berechnen |
Vorverarbeitung | - | - |
{"algorithm":"sha256"}
|
| 5 |
Seitenausrichtung
Seiten-Rotation per OSD korrigieren |
Vorverarbeitung | - | - |
{"osd_confidence":2,"use_vision_fallback":false}
|
| 6 |
Dokument-Eintrag
Dokument-Datensatz in Datenbank erstellen |
Speicherung | - |
ki_content.documents
|
{"table":"documents"}
|
| 7 |
Seiten-Speicherung
Einzelseiten in Datenbank speichern |
Speicherung | - |
ki_content.document_pages
|
{"table":"document_pages"}
|
| 8 |
Bild-Analyse
Seiten via Vision-LLM analysieren |
Analyse | - |
{"dpi":150}
|
|
| 9 |
Vision-Speicherung
Vision-Analyse-Ergebnisse speichern |
Speicherung | - |
ki_content.document_pages (vision_analysis)
|
{"store_in":"document_pages.vision_analysis"}
|
| 10 |
Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz |
Vorverarbeitung | - |
ki_content.chunks
|
{"max_size":2000,"min_size":100,"overlap_percent":10}
|
| 11 |
Chunk-Speicherung
Textbausteine in Datenbank speichern |
Speicherung | - |
ki_content.chunks
|
{"table":"chunks"}
|
| 12 |
Anreicherung
Überschriften und Keywords extrahieren |
Vorverarbeitung | - |
ki_content.chunks (headings, keywords)
|
{"extract_headings":true,"extract_keywords":true}
|
| 13 |
Vektorisierung
Embeddings erstellen für Vektor-Suche |
Speicherung | mxbai-embed-large (1024-dim) | Qdrant: |
{"dimension":1024}
|
| 14 |
Vektor-Speicherung
Embedding-Vektoren in Qdrant speichern |
Speicherung | - |
Qdrant: documents
|
{"collection":"documents"}
|
| 15 |
Status-Update
Dokument-Status aktualisieren |
Speicherung | - |
ki_content.documents (status)
|
{"status":"embedded"}
|
| 16 |
Entitäten-Extraktion
Personen, Organisationen, Konzepte, Methoden erkennen |
Analyse |
ki_content.chunk_entities
|
{"types":["PERSON","ORG","CONCEPT","METHODE"]}
|
|
| 17 |
Entitäten-Speicherung
Extrahierte Entitäten in Datenbank speichern |
Wissen | - |
ki_content.entities, .document_entities
|
{"table":"entities","link_table":"document_entities"}
|
| 18 |
Entitäten-Normalisierung
Duplikate zusammenführen, Synonyme verknüpfen |
Wissen | - |
ki_content.entity_synonyms
|
{"merge_similar":true,"confidence_threshold":0.8}
|
| 19 |
Beziehungs-Extraktion
Relationen zwischen Entitäten extrahieren |
Analyse |
ki_content.entity_relations
|
{"types":["RELATES_TO","PART_OF","USES","TEACHES"]}
|
|
| 20 |
Beziehungs-Speicherung
Extrahierte Relationen in Datenbank speichern |
Wissen | - |
ki_content.entity_relations
|
{"table":"entity_relations"}
|
| 21 |
Taxonomie-Aufbau
Hierarchische Kategorisierung aufbauen |
Analyse |
ki_content.chunk_taxonomy, .taxonomy_terms
|
{"table":"taxonomy_terms","auto_classify":true}
|
|
| 22 |
Ontologie-Klassifikation
Entitäten in Ontologie-Klassen einordnen |
Wissen |
ki_content.ontology_classes
|
{"table":"ontology_classes"}
|
|
| 23 |
Chunk-Entitäten-Verknüpfung
Chunks mit erkannten Entitäten verknüpfen |
Wissen | - |
ki_content.chunk_entities
|
{"table":"chunk_entities"}
|
| 24 |
Chunk-Taxonomie
Chunks mit Taxonomie-Kategorien verknüpfen |
Wissen | - |
ki_content.chunk_taxonomy
|
{"table":"chunk_taxonomy"}
|
| 25 |
Entitäten-Taxonomie
Entitäten mit Taxonomie-Pfaden verknüpfen |
Wissen | - |
ki_content.entity_taxonomy_mapping
|
{"table":"entity_taxonomy_mapping"}
|
| 26 |
Chunk-Semantik
Semantische Analyse-Ergebnisse pro Chunk speichern |
Wissen | - |
ki_content.chunk_semantics
|
{"table":"chunk_semantics"}
|
| 27 |
Abschluss
Status finalisieren und Job beenden |
Analyse | - |
ki_content.documents (status)
|
{"status":"completed","cleanup":true}
|
Ausführungen
| ID | Status | Gestartet | Beendet | Dokumente | Chunks |
|---|---|---|---|---|---|
| #6 | completed | 2025-12-27 12:30:00 | 2025-12-27 14:36:16 | 7/7 | 323 |