Pipeline: Wissenschaftliche Pipeline v1
Standard-Pipeline- Quelle:
- Dateitypen:
Pipeline-Schritte
| # | Schritt | Phase | Modell | Zielspeicher | Konfiguration |
|---|---|---|---|---|---|
| 1 |
Erkennung
Dateien scannen und Format prüfen |
Vorverarbeitung | - | - |
{"phase":"Existenz"}
|
| 2 |
Hash-Berechnung
SHA256-Hash für Duplikat-Erkennung berechnen |
Vorverarbeitung | - | - |
{"phase":"Existenz"}
|
| 3 |
Duplikat-Prüfung
Hash-Vergleich, bei Treffer Pipeline-Abbruch |
Vorverarbeitung | - |
ki_content.documents (status)
|
{"phase":"Existenz","abort_on_duplicate":true}
|
| 4 |
Dokument-Eintrag
Dokument-Datensatz in Datenbank erstellen |
Speicherung | - |
ki_content.documents
|
{"phase":"Existenz"}
|
| 5 |
Seitenzerlegung
PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse |
Vorverarbeitung | - |
ki_content.document_pages
|
{"phase":"Normalisierung"}
|
| 6 |
Seitenausrichtung
Seiten-Rotation per OSD korrigieren |
Vorverarbeitung | - | - |
{"phase":"Normalisierung"}
|
| 7 |
Textextraktion
Text extrahieren, OCR für Bilder mit Text |
Vorverarbeitung | - | - |
{"phase":"Normalisierung"}
|
| 8 |
Seiten-Speicherung
Einzelseiten in Datenbank speichern |
Speicherung | - |
ki_content.document_pages
|
{"phase":"Normalisierung"}
|
| 9 |
Bild-Analyse
Seiten via Vision-LLM analysieren |
Analyse | - |
{"phase":"Normalisierung"}
|
|
| 10 |
Strukturerkennung
Überschriften, Listen und Hierarchie erkennen |
Vorverarbeitung | - |
ki_content.document_sections
|
{"phase":"Textstruktur"}
|
| 11 |
Abschnitte
Logische Dokumentgliederung nach Struktur |
Vorverarbeitung | - |
ki_content.document_sections
|
{"phase":"Textstruktur"}
|
| 12 |
Textbausteine
Chunks erstellen (max 800 Token) mit Seitenreferenz |
Vorverarbeitung | - |
ki_content.chunks
|
{"phase":"Textstruktur","max_tokens":512,"overlap":50}
|
| 13 |
Chunk-Speicherung
Textbausteine in Datenbank speichern |
Speicherung | - |
ki_content.chunks
|
{"phase":"Textstruktur"}
|
| 14 |
Textsemantik-Analyse
Aussageform, Intent, Frame, Negation pro Chunk analysieren |
Textsemantik | - |
{"phase":"Textsemantik","analyze":["statement_form","intent","frame","negation","discourse_role"]}
|
|
| 15 |
Textsemantik-Speicherung
Analyse-Ergebnisse in chunk_semantics speichern |
Textsemantik | - |
ki_content.chunk_semantics
|
{"phase":"Textsemantik","target_table":"chunk_text_semantics"}
|
| 16 |
Entitäten-Extraktion
Personen, Organisationen, Konzepte, Methoden erkennen |
Analyse |
ki_content.chunk_entities
|
{"phase":"Entitaeten"}
|
|
| 17 |
Entitäten-Speicherung
Extrahierte Entitäten in Datenbank speichern |
Wissen | - |
ki_content.entities, .document_entities
|
{"phase":"Entitaeten"}
|
| 18 |
Entitäten-Normalisierung
Duplikate zusammenführen, Synonyme verknüpfen |
Wissen | - |
ki_content.entity_synonyms
|
{"phase":"Entitaeten"}
|
| 19 |
Wissenssemantik-Analyse
Bedeutung der Entitäten im Kontext: Rolle, Eigenschaften, Funktion |
Wissenssemantik | - |
{"phase":"Wissenssemantik","analyze":["semantic_role","properties","functional_category","context_meaning"]}
|
|
| 20 |
Wissenssemantik-Speicherung
Analyse-Ergebnisse in entity_semantics speichern |
Wissenssemantik | - |
ki_content.entity_semantics
|
{"phase":"Wissenssemantik","target_table":"entity_knowledge_semantics"}
|
| 21 |
Beziehungs-Extraktion
Relationen zwischen Entitäten extrahieren |
Analyse |
ki_content.entity_relations
|
{"phase":"Relationen"}
|
|
| 22 |
Beziehungs-Speicherung
Extrahierte Relationen in Datenbank speichern |
Wissen | - |
ki_content.entity_relations
|
{"phase":"Relationen"}
|
| 23 |
Ontologie-Klassifikation
Entitäten in Ontologie-Klassen einordnen |
Wissen |
ki_content.ontology_classes
|
{"phase":"Ontologie"}
|
|
| 24 |
Ontologie-Speicherung
Ontologie-Klassifikationen in Datenbank speichern |
Wissen | - |
ki_content.ontology_classes
|
{"phase":"Ontologie"}
|
| 25 |
Taxonomie-Aufbau
Hierarchische Kategorisierung aufbauen |
Analyse |
ki_content.chunk_taxonomy, .taxonomy_terms
|
{"phase":"Taxonomie"}
|
|
| 26 |
Chunk-Taxonomie
Chunks mit Taxonomie-Kategorien verknüpfen |
Wissen | - |
ki_content.chunk_taxonomy
|
{"phase":"Taxonomie"}
|
| 27 |
Entitäten-Taxonomie
Entitäten mit Taxonomie-Pfaden verknüpfen |
Wissen | - |
ki_content.entity_taxonomy_mapping
|
{"phase":"Taxonomie"}
|
| 28 |
Vektorisierung
Embeddings erstellen für Vektor-Suche |
Speicherung | mxbai-embed-large (1024-dim) | Qdrant: |
{"phase":"Retrieval"}
|
| 29 |
Vektor-Speicherung
Embedding-Vektoren in Qdrant speichern |
Speicherung | - |
Qdrant: documents
|
{"phase":"Retrieval","collection":"documents"}
|
| 30 |
Index-Optimierung
HNSW-Index für schnelle Suche optimieren |
Speicherung | - |
Qdrant: {collection}
|
{"phase":"Retrieval"}
|
| 31 |
Status-Update
Dokument-Status aktualisieren |
Speicherung | - |
ki_content.documents (status)
|
{"phase":"Abschluss","status":"completed"}
|
| 32 |
Abschluss
Status finalisieren und Job beenden |
Analyse | - |
ki_content.documents (status)
|
{"phase":"Abschluss"}
|
| 50 |
Anreicherung
Überschriften und Keywords extrahieren |
Vorverarbeitung |
ki_content.chunks (headings, keywords)
|
{"phase":"Entity-Enrichment"}
|
Ausführungen
Noch keine Ausführungen vorhanden.