Neue Pipeline

Pfad zum Nextcloud-Ordner mit den zu verarbeitenden Dokumenten
Komma-getrennte Liste der Dateiendungen (mit oder ohne Punkt)
Abbrechen

Pipeline-Schritte

Nach dem Erstellen werden automatisch die Standard-Schritte hinzugefuegt:

  1. Erkennung - Dateien scannen und Format prüfen
  2. Validierung - Datei-Prüfung auf Lesbarkeit und Korruption
  3. Seitenzerlegung - PDF in Einzelseiten zerlegen für Referenz und Vision-Analyse
  4. Bildanalyse - Seiten via Vision-Modell analysieren, Bilder und Grafiken erkennen
  5. Textextraktion - Text extrahieren, OCR für Bilder mit Text
  6. Strukturerkennung - Überschriften, Listen und Hierarchie erkennen
  7. Abschnitte - Logische Dokumentgliederung nach Struktur
  8. Textbausteine - Chunks erstellen (max 800 Token) mit Seitenreferenz
  9. Warteschlange - Dokument zur Verarbeitung einreihen
  10. Hash-Berechnung - SHA256-Hash für Duplikat-Erkennung berechnen
  11. Duplikat-Prüfung - Hash-Vergleich, bei Treffer Pipeline-Abbruch
  12. Seitenausrichtung - Seiten-Rotation per OSD korrigieren
  13. Anreicherung - Überschriften und Keywords extrahieren
  14. Textsemantik-Analyse - Aussageform, Intent, Frame, Negation pro Chunk analysieren
  15. Textsemantik-Speicherung - Analyse-Ergebnisse in chunk_semantics speichern
  16. DB-Speicherung - Dokument, Seiten und Chunks in MariaDB speichern
  17. Vektorisierung - Embeddings erstellen für Vektor-Suche
  18. Collection - Qdrant-Collection einrichten falls nötig
  19. Vektorspeicherung - Vektoren in Qdrant mit MariaDB-ID als Referenz
  20. Index-Optimierung - HNSW-Index für schnelle Suche optimieren
  21. Dokument-Eintrag - Dokument-Datensatz in Datenbank erstellen
  22. Seiten-Speicherung - Einzelseiten in Datenbank speichern
  23. Bild-Analyse - Seiten via Vision-LLM analysieren
  24. Vision-Speicherung - Vision-Analyse-Ergebnisse speichern
  25. Chunk-Speicherung - Textbausteine in Datenbank speichern
  26. Vektor-Speicherung - Embedding-Vektoren in Qdrant speichern
  27. Status-Update - Dokument-Status aktualisieren
  28. Seiten-Wissen - Pro Seite: Entitäten → Semantik → Ontologie → Taxonomie
  29. Abschnitt-Wissen - Pro Kapitel: Aggregierte Wissensrepräsentation
  30. Dokument-Wissen - Konsolidierte Gesamtsicht des Dokuments
  31. Wissens-Validierung - Abgleich mit DB, Duplikate zusammenführen, neue validieren
  32. Entitäten-Extraktion - Personen, Organisationen, Konzepte, Methoden erkennen
  33. Beziehungs-Extraktion - Relationen zwischen Entitäten extrahieren
  34. Taxonomie-Aufbau - Hierarchische Kategorisierung aufbauen
  35. Semantik-Analyse - Bedeutungs-Analyse, Konzepte und Definitionen
  36. Zusammenfassung - Dokument- und Seiten-Zusammenfassungen erstellen
  37. Fragengenerierung - Beispielfragen für RAG-Chat erstellen
  38. Entitäten-Speicherung - Extrahierte Entitäten in Datenbank speichern
  39. Entitäten-Normalisierung - Duplikate zusammenführen, Synonyme verknüpfen
  40. Wissenssemantik-Analyse - Bedeutung der Entitäten im Kontext: Rolle, Eigenschaften, Funktion
  41. Wissenssemantik-Speicherung - Analyse-Ergebnisse in entity_semantics speichern
  42. Beziehungs-Speicherung - Extrahierte Relationen in Datenbank speichern
  43. Ontologie-Klassifikation - Entitäten in Ontologie-Klassen einordnen
  44. Ontologie-Speicherung - Ontologie-Klassifikationen in Datenbank speichern
  45. Chunk-Entitäten-Verknüpfung - Chunks mit erkannten Entitäten verknüpfen
  46. Chunk-Taxonomie - Chunks mit Taxonomie-Kategorien verknüpfen
  47. Entitäten-Taxonomie - Entitäten mit Taxonomie-Pfaden verknüpfen
  48. Chunk-Semantik - Semantische Analyse-Ergebnisse pro Chunk speichern
  49. Abschluss - Status finalisieren und Job beenden
  50. Kombinierte Analyse - Entitäten, Relationen und Taxonomie in einem Schritt

Die Schritte koennen danach einzeln aktiviert/deaktiviert und konfiguriert werden.