Import Pipeline

Wissenschaftliche Pipeline v1

Bearbeiten

11-Phasen-Pipeline mit korrekter wissenschaftlicher Reihenfolge: Semantik VOR Embedding. Textsemantik (WIE) und Wissenssemantik (WAS) werden analysiert bevor Vektoren erzeugt werden.

Quelle: /var/www/files/import Formate: pdf, docx, txt, md

Pipeline-Schritte

Dateien scannen

phase: Existenz

→

phase: Existenz

→

phase: Existenz abort_on_duplicate: ja

→

phase: Existenz

→

phase: Normalisierung

→

phase: Normalisierung

→

Text extrahieren

phase: Normalisierung

→

phase: Normalisierung

→

phase: Normalisierung model: minicpm-v:latest provider: ollama

→

phase: Textstruktur

→

phase: Textstruktur

→

Semantisch teilen

phase: Textstruktur max_tokens: 512 overlap: 50

→

phase: Textstruktur

→

phase: Textsemantik model: gemma3:27b-it-qat analyze:
Warning: Array to string conversion in /var/www/dev.campus.systemische-tools.de/src/View/content-pipeline/import.php on line 52
Array

→

phase: Textsemantik target_table: chunk_text_semantics

→

phase: Entitaeten model: gemma3:27b-it-qat

→

phase: Entitaeten

→

phase: Entitaeten

→

phase: Wissenssemantik model: gemma3:27b-it-qat analyze:
Warning: Array to string conversion in /var/www/dev.campus.systemische-tools.de/src/View/content-pipeline/import.php on line 52
Array

→

phase: Wissenssemantik target_table: entity_knowledge_semantics

→

phase: Relationen model: gemma3:27b-it-qat

→

phase: Relationen

→

phase: Ontologie model: gemma3:27b-it-qat

→

phase: Ontologie

→

phase: Taxonomie model: gemma3:27b-it-qat provider: ollama

→

phase: Taxonomie

→

phase: Taxonomie

→

Vektorisieren

phase: Retrieval model: nomic-embed-text

→

phase: Retrieval collection: documents

→

phase: Retrieval

→

phase: Abschluss status: completed

→

phase: Abschluss

→

phase: Entity-Enrichment model: gemma3:27b-it-qat

Alle Pipelines Dokumentation