{
"assistant_response": "Gute Frage! Aktuell gibt es **keinen automatischen Abgleich** - die Verfahren laufen parallel aber unverbunden. Hier der aktuelle Stand:\n\n### Aktueller Ablauf:\n\n```\nPDF-Datei\n │\n ├─► extract.py (Text)\n │ └─► PyMuPDF get_text() → direkter PDF-Text\n │ └─► Falls <50 Zeichen: Tesseract OCR\n │\n └─► vision.py (Bild)\n └─► MiniCPM-V → strukturierte Beschreibung\n```\n\n### Was wo gespeichert wird:\n\n| Quelle | Tabelle | Spalte |\n|--------|---------|--------|\n| PyMuPDF\/OCR Text | `chunks` | `content` |\n| Vision-Analyse | `document_pages` | `vision_analysis` |\n| OCR angewendet? | `document_pages` | `ocr_applied` |\n\n### Problem: Kein Merge!\n\nDie Vision-Analyse erkennt:\n- Überschriften, Struktur, Layout\n- Bilder, Diagramme, Tabellen\n- Hervorhebungen, Callouts\n\nAber diese Infos fließen **nicht** in die Chunks ein.\n\n---\n\nSoll ich einen **Abgleich-Mechanismus** implementieren? Mögliche Ansätze:\n\n1. **Vision-Enrichment**: Chunk-Metadaten mit Vision-Infos anreichern\n2. **OCR-Fallback**: Vision-Text nutzen wenn PyMuPDF versagt\n3. **Struktur-Merge**: Vision-erkannte Überschriften für besseres Chunking\n4. **Confidence-Score**: Vergleich OCR vs Vision für Qualitätsbewertung"
}