Protokoll #18967

ID18967
Zeitstempel2025-12-26 23:11:42.805012
Clientroot
IP145.224.72.140
Modellclaude-sonnet-4-20250514
Statuscompleted
Tokens288 (Input: 32, Output: 256)
Dauer129272 ms
Request-Zeit2025-12-26 23:11:42.805012
Response-Zeit2025-12-26 23:13:52.076707

Request

{
    "event": "UserPromptSubmit",
    "prompt": "run_demo.py nochmal mit neuem prompt testen: prompt anpassen. nach dem test vergleich."
}

Response

{
    "assistant_response": "**Vergleich mit Goldstandard (demo.pdf):**\n\n| Kategorie | Goldstandard | Baseline | YAML v2 | YAML v3 (neu) |\n|-----------|-------------|----------|---------|---------------|\n| CONCEPT | 18 | 35 | 17 | 15 |\n| ROLE | 8 | 2 | 6 | 3 |\n| MODEL | 3 | 1 | 4 | 1 |\n| ARTIFACT | 2 | 0 | 0 | **2** ✓ |\n| PRINCIPLE | - | 0 | 0 | **2** |\n| PERSON | 0 | 0 | 1 ❌ | 0 ✓ |\n| **TOTAL** | **31** | **38** | **27** | **23** |\n\n**Analyse:**\n\n✅ **Besser:**\n- ARTIFACT wird jetzt erkannt (Booklet, Jobbeschreibung)\n- PRINCIPLE wird jetzt erkannt (Demut)\n- Keine falschen PERSON mehr\n\n⚠️ **Problem:**\n- Weniger Entities insgesamt (23 vs 31 Goldstandard)\n- ROLE zu wenig (3 vs 8)\n- CONCEPT etwas zu wenig\n\nDas Problem: Mit mehr Kategorien wird das LLM \"vorsichtiger\" und extrahiert weniger. Die Validierung `_validate_entity_in_text()` filtert auch strikt.\n\nSoll ich:\n1. Die Validierung lockern (auch Teilstrings erlauben)?\n2. Den Prompt anpassen (weniger restriktiv)?\n3. Das 2-Pass-Verfahren aktivieren (erst alle extrahieren, dann kategorisieren)?"
}
← Vorheriger Zur Liste Nächster →