Normalisierung und Konsolidierung (Phase 6)
Ziel
Aus temporären Rohdaten entsteht ein konsistenter, referenzierbarer Wissensbestand. Diese Phase überführt extrahierte Signale in stabile Entitäten und Relationen. Ab hier beginnt semantische Verlässlichkeit.
Eingangsbasis
- Grundlage sind ausschließlich die Rohdaten aus Phase 5
- Rohdaten behalten ihren Bezug zu Chunk, Abschnitt und Dokument
- Keine neuen semantischen Elemente werden hinzugefügt
Normalisierung von Entitäten
Entitäten werden sprachlich und formal normalisiert:
| Normalisierung | Beispiel |
|---|---|
| Schreibweisen | "SystemCoaching" → "System-Coaching" |
| Abkürzungen | "NLP" → "Neuro-Linguistisches Programmieren" |
| Synonyme | "Klient", "Coachee" → kanonische Form |
| Singular/Plural | "Coaches" → "Coach" |
Normalisierung verändert die Darstellung, nicht die Bedeutung.
Koreferenzauflösung
- Es wird geprüft, ob verschiedene Roh-Entitäten dieselbe reale Entität bezeichnen
- Kriterien für Gleichheit sind dokumentiert und reproduzierbar
- Gleiche Entitäten werden zu einer kanonischen Entität zusammengeführt
- Unterschiedliche Entitäten bleiben getrennt, auch wenn sie ähnlich sind
Vergabe stabiler Identitäten
| Eigenschaft | Beschreibung |
|---|---|
| Entity-ID | Systemweit eindeutig |
| Stabilität | Unabhängig von Textvarianten oder Fundstellen |
| Wiederverwendung | Einmal vergeben, nie wiederverwendet |
Konsolidierung von Relationen
- Roh-Relationen werden geprüft und vereinheitlicht
- Relationstypen werden auf einen kontrollierten Satz abgebildet
- Unzulässige oder unklare Relationen werden verworfen oder markiert
- Relationen referenzieren ausschließlich stabile Entity-IDs
Dublettenerkennung und Bereinigung
- Doppelte Entitäten und Relationen werden identifiziert
- Dubletten werden zusammengeführt oder entfernt
- Der Vorgang ist nachvollziehbar und reversibel
Persistenz
- Erst nach Abschluss aller Prüfungen erfolgt Persistenz
- Persistiert werden: konsolidierte Entitäten und validierte Relationen
- Persistenz erfolgt in der SQL-Datenbank als kanonischer Quelle
Abgrenzung zur Ontologie
- In dieser Phase erfolgt keine Klassenzuordnung
- Ontologische Einordnung ist Gegenstand von Phase 8
Ergebnisartefakte
- Stabile Entitäten mit Entity-ID
- Konsolidierte Relationen
- Bereinigter Wissensrohbestand
Prüfbedingungen für Supervision
- Jede persistierte Entität besitzt genau eine stabile Entity-ID
- Keine persistierte Relation referenziert Roh-Entitäten
- Alle Zusammenführungen sind nachvollziehbar dokumentiert