Pipeline: Wissenschaftliche Pipeline v1

Standard-Pipeline

Bearbeiten

Quelle:
Dateitypen:

Pipeline-Schritte

#	Schritt	Phase	Modell	Zielspeicher	Konfiguration
1	Erkennung Dateien scannen und Format prüfen	Vorverarbeitung	-	-	`{"phase":"Existenz"}`
2	Hash-Berechnung SHA256-Hash für Duplikat-Erkennung berechnen	Vorverarbeitung	-	-	`{"phase":"Existenz"}`
3	Duplikat-Prüfung Hash-Vergleich, bei Treffer Pipeline-Abbruch	Vorverarbeitung	-	`ki_content.documents (status)`	`{"phase":"Existenz","abort_on_duplicate":true}`
4	Dokument-Eintrag Dokument-Datensatz in Datenbank erstellen	Speicherung	-	`ki_content.documents`	`{"phase":"Existenz"}`
5	Seitenzerlegung PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse	Vorverarbeitung	-	`ki_content.document_pages`	`{"phase":"Normalisierung"}`
6	Seitenausrichtung Seiten-Rotation per OSD korrigieren	Vorverarbeitung	-	-	`{"phase":"Normalisierung"}`
7	Textextraktion Text extrahieren, OCR für Bilder mit Text	Vorverarbeitung	-	-	`{"phase":"Normalisierung"}`
8	Seiten-Speicherung Einzelseiten in Datenbank speichern	Speicherung	-	`ki_content.document_pages`	`{"phase":"Normalisierung"}`
9	Bild-Analyse Seiten via Vision-LLM analysieren	Analyse		-	`{"phase":"Normalisierung"}`
10	Strukturerkennung Überschriften, Listen und Hierarchie erkennen	Vorverarbeitung	-	`ki_content.document_sections`	`{"phase":"Textstruktur"}`
11	Abschnitte Logische Dokumentgliederung nach Struktur	Vorverarbeitung	-	`ki_content.document_sections`	`{"phase":"Textstruktur"}`
12	Textbausteine Chunks erstellen (max 800 Token) mit Seitenreferenz	Vorverarbeitung	-	`ki_content.chunks`	`{"phase":"Textstruktur","max_tokens":512,"overlap":50}`
13	Chunk-Speicherung Textbausteine in Datenbank speichern	Speicherung	-	`ki_content.chunks`	`{"phase":"Textstruktur"}`
14	Textsemantik-Analyse Aussageform, Intent, Frame, Negation pro Chunk analysieren	Textsemantik		-	`{"phase":"Textsemantik","analyze":["statement_form","intent","frame","negation","discourse_role"]}`
15	Textsemantik-Speicherung Analyse-Ergebnisse in chunk_semantics speichern	Textsemantik	-	`ki_content.chunk_semantics`	`{"phase":"Textsemantik","target_table":"chunk_text_semantics"}`
16	Entitäten-Extraktion Personen, Organisationen, Konzepte, Methoden erkennen	Analyse		`ki_content.chunk_entities`	`{"phase":"Entitaeten"}`
17	Entitäten-Speicherung Extrahierte Entitäten in Datenbank speichern	Wissen	-	`ki_content.entities, .document_entities`	`{"phase":"Entitaeten"}`
18	Entitäten-Normalisierung Duplikate zusammenführen, Synonyme verknüpfen	Wissen	-	`ki_content.entity_synonyms`	`{"phase":"Entitaeten"}`
19	Wissenssemantik-Analyse Bedeutung der Entitäten im Kontext: Rolle, Eigenschaften, Funktion	Wissenssemantik		-	`{"phase":"Wissenssemantik","analyze":["semantic_role","properties","functional_category","context_meaning"]}`
20	Wissenssemantik-Speicherung Analyse-Ergebnisse in entity_semantics speichern	Wissenssemantik	-	`ki_content.entity_semantics`	`{"phase":"Wissenssemantik","target_table":"entity_knowledge_semantics"}`
21	Beziehungs-Extraktion Relationen zwischen Entitäten extrahieren	Analyse		`ki_content.entity_relations`	`{"phase":"Relationen"}`
22	Beziehungs-Speicherung Extrahierte Relationen in Datenbank speichern	Wissen	-	`ki_content.entity_relations`	`{"phase":"Relationen"}`
23	Ontologie-Klassifikation Entitäten in Ontologie-Klassen einordnen	Wissen		`ki_content.ontology_classes`	`{"phase":"Ontologie"}`
24	Ontologie-Speicherung Ontologie-Klassifikationen in Datenbank speichern	Wissen	-	`ki_content.ontology_classes`	`{"phase":"Ontologie"}`
25	Taxonomie-Aufbau Hierarchische Kategorisierung aufbauen	Analyse		`ki_content.chunk_taxonomy, .taxonomy_terms`	`{"phase":"Taxonomie"}`
26	Chunk-Taxonomie Chunks mit Taxonomie-Kategorien verknüpfen	Wissen	-	`ki_content.chunk_taxonomy`	`{"phase":"Taxonomie"}`
27	Entitäten-Taxonomie Entitäten mit Taxonomie-Pfaden verknüpfen	Wissen	-	`ki_content.entity_taxonomy_mapping`	`{"phase":"Taxonomie"}`
28	Vektorisierung Embeddings erstellen für Vektor-Suche	Speicherung	mxbai-embed-large (1024-dim)	Qdrant:	`{"phase":"Retrieval"}`
29	Vektor-Speicherung Embedding-Vektoren in Qdrant speichern	Speicherung	-	`Qdrant: documents`	`{"phase":"Retrieval","collection":"documents"}`
30	Index-Optimierung HNSW-Index für schnelle Suche optimieren	Speicherung	-	`Qdrant: {collection}`	`{"phase":"Retrieval"}`
31	Status-Update Dokument-Status aktualisieren	Speicherung	-	`ki_content.documents (status)`	`{"phase":"Abschluss","status":"completed"}`
32	Abschluss Status finalisieren und Job beenden	Analyse	-	`ki_content.documents (status)`	`{"phase":"Abschluss"}`
50	Anreicherung Überschriften und Keywords extrahieren	Vorverarbeitung		`ki_content.chunks (headings, keywords)`	`{"phase":"Entity-Enrichment"}`

Ausführungen

Noch keine Ausführungen vorhanden.

Zurück zur Übersicht