Neue Pipeline

Pipeline-Schritte

Nach dem Erstellen werden automatisch die Standard-Schritte hinzugefuegt:

Erkennung - Dateien scannen und Format prüfen
Validierung - Datei-Prüfung auf Lesbarkeit und Korruption
Seitenzerlegung - PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse
Bildanalyse - Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen
Textextraktion - Text extrahieren, OCR für Bilder mit Text
Strukturerkennung - Überschriften, Listen und Hierarchie erkennen
Abschnitte - Logische Dokumentgliederung nach Struktur
Textbausteine - Chunks erstellen (max 800 Token) mit Seitenreferenz
Warteschlange - Dokument zur Verarbeitung einreihen
Hash-Berechnung - SHA256-Hash für Duplikat-Erkennung berechnen
Duplikat-Prüfung - Hash-Vergleich, bei Treffer Pipeline-Abbruch
Seitenausrichtung - Seiten-Rotation per OSD korrigieren
Anreicherung - Überschriften und Keywords extrahieren
Textsemantik-Analyse - Aussageform, Intent, Frame, Negation pro Chunk analysieren
Textsemantik-Speicherung - Analyse-Ergebnisse in chunk_semantics speichern
DB-Speicherung - Dokument, Seiten und Chunks in MariaDB speichern
Vektorisierung - Embeddings erstellen für Vektor-Suche
Collection - Qdrant-Collection einrichten falls nötig
Vektorspeicherung - Vektoren in Qdrant mit MariaDB-ID als Referenz
Index-Optimierung - HNSW-Index für schnelle Suche optimieren
Dokument-Eintrag - Dokument-Datensatz in Datenbank erstellen
Seiten-Speicherung - Einzelseiten in Datenbank speichern
Bild-Analyse - Seiten via Vision-LLM analysieren
Vision-Speicherung - Vision-Analyse-Ergebnisse speichern
Chunk-Speicherung - Textbausteine in Datenbank speichern
Vektor-Speicherung - Embedding-Vektoren in Qdrant speichern
Status-Update - Dokument-Status aktualisieren
Seiten-Wissen - Pro Seite: Entitäten → Semantik → Ontologie → Taxonomie
Abschnitt-Wissen - Pro Kapitel: Aggregierte Wissensrepräsentation
Dokument-Wissen - Konsolidierte Gesamtsicht des Dokuments
Wissens-Validierung - Abgleich mit DB, Duplikate zusammenführen, neue validieren
Entitäten-Extraktion - Personen, Organisationen, Konzepte, Methoden erkennen
Beziehungs-Extraktion - Relationen zwischen Entitäten extrahieren
Taxonomie-Aufbau - Hierarchische Kategorisierung aufbauen
Semantik-Analyse - Bedeutungs-Analyse, Konzepte und Definitionen
Zusammenfassung - Dokument- und Seiten-Zusammenfassungen erstellen
Fragengenerierung - Beispielfragen für RAG-Chat erstellen
Entitäten-Speicherung - Extrahierte Entitäten in Datenbank speichern
Entitäten-Normalisierung - Duplikate zusammenführen, Synonyme verknüpfen
Wissenssemantik-Analyse - Bedeutung der Entitäten im Kontext: Rolle, Eigenschaften, Funktion
Wissenssemantik-Speicherung - Analyse-Ergebnisse in entity_semantics speichern
Beziehungs-Speicherung - Extrahierte Relationen in Datenbank speichern
Ontologie-Klassifikation - Entitäten in Ontologie-Klassen einordnen
Ontologie-Speicherung - Ontologie-Klassifikationen in Datenbank speichern
Chunk-Entitäten-Verknüpfung - Chunks mit erkannten Entitäten verknüpfen
Chunk-Taxonomie - Chunks mit Taxonomie-Kategorien verknüpfen
Entitäten-Taxonomie - Entitäten mit Taxonomie-Pfaden verknüpfen
Chunk-Semantik - Semantische Analyse-Ergebnisse pro Chunk speichern
Abschluss - Status finalisieren und Job beenden
Kombinierte Analyse - Entitäten, Relationen und Taxonomie in einem Schritt

Die Schritte koennen danach einzeln aktiviert/deaktiviert und konfiguriert werden.

Zurueck zur Uebersicht