Document Pipeline

Erstellt: 2025-12-20 | Aktualisiert: 2025-12-31

Automatischer Import und Verarbeitung von Dokumenten aus Nextcloud.

Quelle	/var/www/nextcloud/data/root/files/Documents
Formate	PDF, PPTX, DOCX, MD, TXT
Trigger	Polling + Event-basiert
Sprache	Python 3.13

Pipeline-Schritte

1. DETECT    → Neue/geänderte Dateien erkennen
2. EXTRACT   → Text extrahieren (OCR, Vision)
3. CHUNK     → Semantisches Chunking
4. ENRICH    → Metadaten anreichern
5. STORE     → In MariaDB speichern
6. EMBED     → Vektoren erzeugen
7. INDEX     → In Qdrant speichern
8. ANALYZE   → Semantische Analyse

Text-Extraktion

Format	Tool	Features
PDF	PyMuPDF	OCR via Tesseract
PPTX	python-pptx	Slides + Speaker Notes
DOCX	python-docx	Text-Extraktion
MD/TXT	direkt	UTF-8

Bild-Handling

Bilder in Dokumenten werden via Vision-API beschrieben und als Text-Chunk gespeichert.

Chunking

Methode	Semantisch + Hierarchisch
Größe	Intelligent (kontextabhängig)
Overlap	~10%
Hierarchie	Dokument → Kapitel → Abschnitt

Chunk-Metadaten

{
  "document_id": 123,
  "chunk_index": 0,
  "heading_path": ["Kapitel 1", "Abschnitt 1.2"],
  "source_folder": "/Documents/Therapie",
  "entities": ["Carl Rogers"],
  "taxonomy_terms": ["Methoden"]
}

Queue-System

Queue	ki_content.pipeline_queue
Runs	ki_content.pipeline_runs (Status, Logging)
Retry	Max 3 Versuche, exponential backoff

Pipeline-Scripts

/var/www/scripts/pipeline/
├── pipeline.py          → Haupt-Orchestrierung
├── detect.py            → Datei-Monitoring
├── extract.py           → Text-Extraktion
├── chunk.py             → Semantisches Chunking
├── embed.py             → Embedding-Erzeugung
├── analyze.py           → Semantische Analyse
├── generate_semantics.py → Semantik-Generierung (Entities, Relations)
├── db.py                → Datenbank-Operationen
├── config.py            → Konfiguration
├── run.sh               → Ausführungs-Wrapper
│
├── generate.py          → Content-Generierung (RAG + Kritiker)
├── web_generate.py      → Web-API für Content-Generierung
├── chat.py              → RAG-Chat (interaktiv + CLI)
├── web_chat.py          → Web-API für RAG-Chat
│
└── venv/                → Python Virtual Environment

Script-Kategorien

Kategorie	Scripts	Docs
Import-Pipeline	detect, extract, chunk, embed, analyze	Embedding
Semantik	generate_semantics.py	Entitäten
Content-Generierung	generate.py, web_generate.py	Content-Studio
RAG-Chat	chat.py, web_chat.py	RAG-Chat
Infrastruktur	db.py, config.py, run.sh	Datenbank

Ausführung

cd /var/www/scripts/pipeline

# Neue Dokumente scannen
./run.sh scan

# Queue verarbeiten
./run.sh process

# Pending Embeddings
./run.sh embed

# Volle Pipeline
./run.sh all

# Einzelne Datei
./run.sh file /pfad/zur/datei.pdf

# Status anzeigen
./run.sh status