Provenienz und Nachvollziehbarkeit (Phase 10)
Ziel
Jede semantische Einheit ist vollständig rückverfolgbar. Provenienz stellt sicher, dass Wissen überprüfbar, korrigierbar und versionierbar bleibt. Ohne Provenienz gibt es keine belastbare semantische Infrastruktur.
Grundprinzip
- Keine Entität und keine Aussage existiert ohne Herkunft
- Herkunft ist strukturiert gespeichert, nicht implizit
- Provenienz ist Teil der semantischen Wahrheit
Provenienz von Entitäten
Jede Entität referenziert mindestens eine Quelle:
| Referenz | Beschreibung |
|---|---|
| Dokumenten-ID | Ursprungsdokument |
| Abschnitts-ID | Strukturelle Position |
| Chunk-ID | Textuelle Fundstelle |
- Mehrere Quellen pro Entität sind zulässig
- Quellen werden nicht aggregiert oder verworfen
Provenienz von Aussagen
Jede Aussage referenziert ihre Entstehungsbasis:
- Die beteiligten Chunks
- Den Abschnittskontext
- Das zugrundeliegende Dokument
Aussagen ohne eindeutige Herkunft sind unzulässig.
Zeitliche Nachvollziehbarkeit
Für jede Entität und Aussage werden gespeichert:
| Zeitinformation | Beschreibung |
|---|---|
| Erfassungszeit | Wann wurde das Element erstellt? |
| Letzte Änderung | Wann wurde es zuletzt modifiziert? |
| Gültigkeitszeitraum | Sofern relevant für den Inhalt |
Zeitangaben sind maschinenlesbar und vergleichbar.
Pipeline-Referenz
- Jede Persistenz speichert die verwendete Pipeline-Version
- Änderungen am Extraktions- oder Konsolidierungsprozess sind nachvollziehbar
- Reprocessing kann gezielt für einzelne Pipeline-Versionen erfolgen
Fehlerbehandlung und Korrektur
- Fehlerhafte Entitäten oder Aussagen können identifiziert werden
- Korrekturen erfolgen durch neue Versionen, nicht durch Überschreiben
- Alte Versionen bleiben referenzierbar
- Beziehungen zwischen Versionen sind explizit modelliert
Abgrenzung zu Annotationen
- Provenienz beschreibt Herkunft, nicht Bewertung
- Kommentare oder Bewertungen sind separate Konzepte
Persistenz
- Provenienzinformationen werden persistent gespeichert
- Provenienz ist Teil des Graphmodells und der SQL-Datenhaltung
- Kein Systemteil darf Provenienzinformationen verwerfen
Ergebnisartefakte
- Vollständige Quellenreferenzen für Entitäten
- Vollständige Quellenreferenzen für Aussagen
- Zeitlich und prozessual nachvollziehbarer Wissensbestand
Prüfbedingungen für Supervision
- Jede Entität und jede Aussage besitzt mindestens eine Quellenreferenz
- Jede Quellenreferenz verweist auf existierende Dokument-, Abschnitts- und Chunk-IDs
- Korrekturen sind über Versionsbeziehungen nachvollziehbar