Neue Pipeline
Pipeline-Schritte
Nach dem Erstellen werden automatisch die Standard-Schritte hinzugefuegt:
- Erkennung - Dateien scannen und Format prüfen
- Validierung - Datei-Prüfung auf Lesbarkeit und Korruption
- Seitenzerlegung - PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse
- Bildanalyse - Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen
- Textextraktion - Text extrahieren, OCR für Bilder mit Text
- Strukturerkennung - Überschriften, Listen und Hierarchie erkennen
- Abschnitte - Logische Dokumentgliederung nach Struktur
- Textbausteine - Chunks erstellen (max 800 Token) mit Seitenreferenz
- Warteschlange - Dokument zur Verarbeitung einreihen
- Hash-Berechnung - SHA256-Hash für Duplikat-Erkennung berechnen
- Duplikat-Prüfung - Hash-Vergleich, bei Treffer Pipeline-Abbruch
- Seitenausrichtung - Seiten-Rotation per OSD korrigieren
- Anreicherung - Überschriften und Keywords extrahieren
- Textsemantik-Analyse - Aussageform, Intent, Frame, Negation pro Chunk analysieren
- Textsemantik-Speicherung - Analyse-Ergebnisse in chunk_semantics speichern
- DB-Speicherung - Dokument, Seiten und Chunks in MariaDB speichern
- Vektorisierung - Embeddings erstellen für Vektor-Suche
- Collection - Qdrant-Collection einrichten falls nötig
- Vektorspeicherung - Vektoren in Qdrant mit MariaDB-ID als Referenz
- Index-Optimierung - HNSW-Index für schnelle Suche optimieren
- Dokument-Eintrag - Dokument-Datensatz in Datenbank erstellen
- Seiten-Speicherung - Einzelseiten in Datenbank speichern
- Bild-Analyse - Seiten via Vision-LLM analysieren
- Vision-Speicherung - Vision-Analyse-Ergebnisse speichern
- Chunk-Speicherung - Textbausteine in Datenbank speichern
- Vektor-Speicherung - Embedding-Vektoren in Qdrant speichern
- Status-Update - Dokument-Status aktualisieren
- Seiten-Wissen - Pro Seite: Entitäten → Semantik → Ontologie → Taxonomie
- Abschnitt-Wissen - Pro Kapitel: Aggregierte Wissensrepräsentation
- Dokument-Wissen - Konsolidierte Gesamtsicht des Dokuments
- Wissens-Validierung - Abgleich mit DB, Duplikate zusammenführen, neue validieren
- Entitäten-Extraktion - Personen, Organisationen, Konzepte, Methoden erkennen
- Beziehungs-Extraktion - Relationen zwischen Entitäten extrahieren
- Taxonomie-Aufbau - Hierarchische Kategorisierung aufbauen
- Semantik-Analyse - Bedeutungs-Analyse, Konzepte und Definitionen
- Zusammenfassung - Dokument- und Seiten-Zusammenfassungen erstellen
- Fragengenerierung - Beispielfragen für RAG-Chat erstellen
- Entitäten-Speicherung - Extrahierte Entitäten in Datenbank speichern
- Entitäten-Normalisierung - Duplikate zusammenführen, Synonyme verknüpfen
- Wissenssemantik-Analyse - Bedeutung der Entitäten im Kontext: Rolle, Eigenschaften, Funktion
- Wissenssemantik-Speicherung - Analyse-Ergebnisse in entity_semantics speichern
- Beziehungs-Speicherung - Extrahierte Relationen in Datenbank speichern
- Ontologie-Klassifikation - Entitäten in Ontologie-Klassen einordnen
- Ontologie-Speicherung - Ontologie-Klassifikationen in Datenbank speichern
- Chunk-Entitäten-Verknüpfung - Chunks mit erkannten Entitäten verknüpfen
- Chunk-Taxonomie - Chunks mit Taxonomie-Kategorien verknüpfen
- Entitäten-Taxonomie - Entitäten mit Taxonomie-Pfaden verknüpfen
- Chunk-Semantik - Semantische Analyse-Ergebnisse pro Chunk speichern
- Abschluss - Status finalisieren und Job beenden
- Kombinierte Analyse - Entitäten, Relationen und Taxonomie in einem Schritt
Die Schritte koennen danach einzeln aktiviert/deaktiviert und konfiguriert werden.