Pipeline: Wissenschaftliche Pipeline v1

Standard-Pipeline
Bearbeiten

Pipeline-Schritte

# Schritt Phase Modell Zielspeicher Konfiguration
1 Erkennung
Dateien scannen und Format prüfen
Vorverarbeitung - - {"phase":"Existenz"}
2 Hash-Berechnung
SHA256-Hash für Duplikat-Erkennung berechnen
Vorverarbeitung - - {"phase":"Existenz"}
3 Duplikat-Prüfung
Hash-Vergleich, bei Treffer Pipeline-Abbruch
Vorverarbeitung - ki_content.documents (status) {"phase":"Existenz","abort_on_duplicate":true}
4 Dokument-Eintrag
Dokument-Datensatz in Datenbank erstellen
Speicherung - ki_content.documents {"phase":"Existenz"}
5 Seitenzerlegung
PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse
Vorverarbeitung - ki_content.document_pages {"phase":"Normalisierung"}
6 Seitenausrichtung
Seiten-Rotation per OSD korrigieren
Vorverarbeitung - - {"phase":"Normalisierung"}
7 Textextraktion
Text extrahieren, OCR für Bilder mit Text
Vorverarbeitung - - {"phase":"Normalisierung"}
8 Seiten-Speicherung
Einzelseiten in Datenbank speichern
Speicherung - ki_content.document_pages {"phase":"Normalisierung"}
9 Bild-Analyse
Seiten via Vision-LLM analysieren
Analyse - {"phase":"Normalisierung"}
10 Strukturerkennung
Überschriften, Listen und Hierarchie erkennen
Vorverarbeitung - ki_content.document_sections {"phase":"Textstruktur"}
11 Abschnitte
Logische Dokumentgliederung nach Struktur
Vorverarbeitung - ki_content.document_sections {"phase":"Textstruktur"}
12 Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz
Vorverarbeitung - ki_content.chunks {"phase":"Textstruktur","max_tokens":512,"overlap":50}
13 Chunk-Speicherung
Textbausteine in Datenbank speichern
Speicherung - ki_content.chunks {"phase":"Textstruktur"}
14 Textsemantik-Analyse
Aussageform, Intent, Frame, Negation pro Chunk analysieren
Textsemantik - {"phase":"Textsemantik","analyze":["statement_form","intent","frame","negation","discourse_role"]}
15 Textsemantik-Speicherung
Analyse-Ergebnisse in chunk_semantics speichern
Textsemantik - ki_content.chunk_semantics {"phase":"Textsemantik","target_table":"chunk_text_semantics"}
16 Entitäten-Extraktion
Personen, Organisationen, Konzepte, Methoden erkennen
Analyse ki_content.chunk_entities {"phase":"Entitaeten"}
17 Entitäten-Speicherung
Extrahierte Entitäten in Datenbank speichern
Wissen - ki_content.entities, .document_entities {"phase":"Entitaeten"}
18 Entitäten-Normalisierung
Duplikate zusammenführen, Synonyme verknüpfen
Wissen - ki_content.entity_synonyms {"phase":"Entitaeten"}
19 Wissenssemantik-Analyse
Bedeutung der Entitäten im Kontext: Rolle, Eigenschaften, Funktion
Wissenssemantik - {"phase":"Wissenssemantik","analyze":["semantic_role","properties","functional_category","context_meaning"]}
20 Wissenssemantik-Speicherung
Analyse-Ergebnisse in entity_semantics speichern
Wissenssemantik - ki_content.entity_semantics {"phase":"Wissenssemantik","target_table":"entity_knowledge_semantics"}
21 Beziehungs-Extraktion
Relationen zwischen Entitäten extrahieren
Analyse ki_content.entity_relations {"phase":"Relationen"}
22 Beziehungs-Speicherung
Extrahierte Relationen in Datenbank speichern
Wissen - ki_content.entity_relations {"phase":"Relationen"}
23 Ontologie-Klassifikation
Entitäten in Ontologie-Klassen einordnen
Wissen ki_content.ontology_classes {"phase":"Ontologie"}
24 Ontologie-Speicherung
Ontologie-Klassifikationen in Datenbank speichern
Wissen - ki_content.ontology_classes {"phase":"Ontologie"}
25 Taxonomie-Aufbau
Hierarchische Kategorisierung aufbauen
Analyse ki_content.chunk_taxonomy, .taxonomy_terms {"phase":"Taxonomie"}
26 Chunk-Taxonomie
Chunks mit Taxonomie-Kategorien verknüpfen
Wissen - ki_content.chunk_taxonomy {"phase":"Taxonomie"}
27 Entitäten-Taxonomie
Entitäten mit Taxonomie-Pfaden verknüpfen
Wissen - ki_content.entity_taxonomy_mapping {"phase":"Taxonomie"}
28 Vektorisierung
Embeddings erstellen für Vektor-Suche
Speicherung mxbai-embed-large (1024-dim) Qdrant: {"phase":"Retrieval"}
29 Vektor-Speicherung
Embedding-Vektoren in Qdrant speichern
Speicherung - Qdrant: documents {"phase":"Retrieval","collection":"documents"}
30 Index-Optimierung
HNSW-Index für schnelle Suche optimieren
Speicherung - Qdrant: {collection} {"phase":"Retrieval"}
31 Status-Update
Dokument-Status aktualisieren
Speicherung - ki_content.documents (status) {"phase":"Abschluss","status":"completed"}
32 Abschluss
Status finalisieren und Job beenden
Analyse - ki_content.documents (status) {"phase":"Abschluss"}
50 Anreicherung
Überschriften und Keywords extrahieren
Vorverarbeitung ki_content.chunks (headings, keywords) {"phase":"Entity-Enrichment"}

Ausführungen

Noch keine Ausführungen vorhanden.