Semantische Roh-Extraktion (Phase 5)
Ziel
Aus Chunk-Texten werden bedeutungstragende Elemente erkannt. Diese Phase dient der vollständigen Erfassung potenzieller semantischer Signale. Korrektheit, Konsistenz und Vereinheitlichung sind ausdrücklich nicht Ziel dieser Phase.
Eingangsbasis
- Grundlage sind ausschließlich die Chunk-Texte aus Phase 3
- Die Analyse erfolgt chunkweise, ohne Kenntnis anderer Chunks
- Es findet keine globale Konsolidierung statt
Analyseverfahren
Chunk-Texte werden mit festgelegten, versionierten Verfahren verarbeitet:
- Named Entity Recognition (NER) - Erkennung benannter Entitäten
- Relation Extraction - Extraktion expliziter Beziehungen
- Aussage- und Prädikaterkennung - Identifikation von Behauptungen
Entitätsextraktion
Alle erkennbaren Entitäten werden extrahiert:
| Entitätstyp | Beispiele |
|---|---|
| Personen | Namen, Rollen, Titel |
| Organisationen | Firmen, Institute, Verbände |
| Orte | Städte, Länder, Gebäude |
| Fachbegriffe | Domänenspezifische Konzepte |
| Sonstige Konzepte | Abstrakte benennbare Einheiten |
Wichtig
- Es wird nicht geprüft, ob Entitäten bereits existieren
- Mehrfachnennungen und Varianten werden nicht zusammengeführt
- Das ist Aufgabe der nächsten Phase (Normalisierung)
Relationsextraktion
- Explizit im Text genannte Relationen werden extrahiert
- Implizite oder logisch abgeleitete Relationen werden nicht ergänzt
- Relationen werden ohne Typisierungstiefe erfasst
Roh-Aussagen
Textuelle Aussagen werden als Rohformen identifiziert:
{
"subject": "Systemisches Coaching",
"predicate": "basiert auf",
"object": "konstruktivistischer Grundhaltung"
}
- Modalität, Gültigkeit und Kontext werden noch nicht bewertet
- Aussagen können unvollständig oder widersprüchlich sein
Temporärer Status
- Ergebnisse dieser Phase sind temporär
- Sie werden nicht als Wahrheit betrachtet
- Sie werden nicht als stabil gespeichert
- Sie dienen ausschließlich als Input für Konsolidierung
Abgrenzung zur Persistenz
- In dieser Phase findet keine dauerhafte Speicherung im Wissensbestand statt
- Es werden keine stabilen IDs vergeben
- Es erfolgt keine Zuordnung zur Ontologie
Ergebnisartefakte
- Roh-Entitäten pro Chunk
- Roh-Relationen pro Chunk
- Roh-Aussagen pro Chunk
Prüfbedingungen für Supervision
- Kein extrahiertes Element gilt als gültig oder korrekt
- Wiederholte Analyse desselben Chunks liefert strukturell vergleichbare Rohdaten
- Kein Roh-Element ist ohne Chunk-Referenz vorhanden