Entitäten

Automatische Extraktion und Verwaltung von Entitäten aus Dokumenten.

MethodeLLM-Extraktion (prompt-basiert)
TypenDynamisch aus Dokumenten
SpracheDeutsch
KuratierungManuell via Web-UI

Entitätstypen

TypBeschreibungBeispiel
PERSONAutoren, TherapeutenCarl Rogers
ORGANIZATIONInstitute, VerlageCarl Auer Verlag
CONCEPTTheorien, MethodenSystemtheorie
WORKBücher, ArtikelDie Kunst der Psychotherapie
EVENTKonferenzenHeidelberger Symposium
TERMFachbegriffeZirkuläres Fragen

Semantik-Generierung

Das Script generate_semantics.py generiert semantische Definitionen für Entitäten mit Ollama.

Script/opt/scripts/pipeline/generate_semantics.py
Modellgpt-oss:20b (Ollama)
Ziel-Tabelleentity_semantics

Ablauf

  1. Entitäten ohne Semantik laden (LEFT JOIN auf entity_semantics)
  2. Dokument-Kontext aus chunks-Tabelle laden (Top 5)
  3. Für jede Entity: LLM-Prompt mit Kontext generieren
  4. JSON-Response parsen (definition, domain, context, attributes)
  5. In entity_semantics speichern (UPSERT)

Generiertes Schema

{
  "definition": "Bedeutung in 1-2 Sätzen",
  "domain": "Wissensdomäne",
  "context": "Verwendungskontext",
  "attributes": {},
  "usage_notes": "",
  "confidence": 0.8
}

Ausführung

cd /opt/scripts/pipeline
source venv/bin/activate
python generate_semantics.py

Deduplizierung

Synonyme werden in einer Referenzierungs-Tabelle gespeichert:

entity_synonyms:
  entity_id: 42 (Carl Rogers)
  synonyms:
    - "Rogers"
    - "C. Rogers"
    - "Carl R. Rogers"

Extraktions-Prompt

Analysiere folgenden Text und extrahiere alle Entitäten.
Bestimme den Typ selbstständig basierend auf dem Kontext.

Text: {chunk_content}

Ausgabeformat JSON:
{
  "entities": [
    {
      "name": "Carl Rogers",
      "type": "PERSON",
      "context": "Begründer der klientenzentrierten Therapie",
      "confidence": 0.95
    }
  ]
}

Relationen

RelationBeschreibung
AUTHORED_BYPerson verfasste Werk
INFLUENCEDPerson beeinflusste Person/Konzept
PART_OFKonzept ist Teil von
APPLIESMethode wendet Konzept an
EXTENDSKonzept erweitert Konzept
CITESWerk zitiert Werk

Datenbank-Schema

entities (
    id, name, canonical_name, type,
    description, created_at
)

entity_synonyms (
    entity_id, synonym
)

entity_semantics (
    id, entity_id,
    definition, domain, context,
    attributes (JSON), usage_notes,
    confidence, source,
    created_at, updated_at
)

entity_relations (
    source_entity_id, target_entity_id,
    relation_type, confidence
)

document_entities (
    document_id, entity_id,
    mention_count, relevance_score
)

Web-UI Features