Pipeline Qualitätsreport: LLM-Modellvergleich

Datum: 2025-12-22
Testdokument: Lernunterlagen_Teamcoach-Ausbildung-2026_extrakt_auftragsklaerung.pdf
Dokumentgröße: 5 Seiten, 12 Chunks, 9.890 Zeichen

Getestete Modelle

Modell	Typ	Größe	Anbieter
gemma3:4b-it-qat	Quantisiert	4 GB	Ollama (lokal)
gpt-oss:20b	Full Precision	13 GB	Ollama (lokal)
claude-opus-4-5-20251101	API	-	Anthropic

1. Entity Extraction

Ergebnisübersicht

Modell	Entitäten	Zeit	Tokens	Qualität
gemma3:4b-it-qat	19	17.2s	712	⭐⭐⭐⭐
gpt-oss:20b	0	4.9s	74	❌ JSON-Fehler
Claude Opus	12	9.7s	1899	⭐⭐⭐⭐⭐

Extrahierte Entitäten (Top 5 pro Modell)

gemma3:4b-it-qat

Systemischer Teamcoach (CONCEPT)
Teamentwicklung (CONCEPT)
Konfliktklärung (CONCEPT)
Entscheidungsfindung (CONCEPT)
Teambuilding (CONCEPT)

Bewertung: Sehr umfassend, findet auch implizite Konzepte

Claude Opus

Auftragsklärung (CONCEPT)
Teambuilding (CONCEPT)
Prozessbegleitung (CONCEPT)
Teamentwicklung (CONCEPT)
Teamcoaching (CONCEPT)

Bewertung: Präzise, fokussiert auf Kernkonzepte

gpt-oss:20b

❌ Keine valide JSON-Ausgabe. Das Modell ignorierte die Formatierungsanweisung und produzierte Freitext.

2. Taxonomy Classification

Modell	Kategorien	Konfidenz
gemma3:4b-it-qat	Theorie, Methoden, Praxis	0.95
gpt-oss:20b	-	0
Claude Opus	Organisation, Methoden, Kommunikation	0.85

Analyse

gemma3: Betont den Lerncharakter (Theorie/Praxis)
Claude Opus: Betont den prozessualen Charakter (Organisation/Kommunikation)

Beide Klassifikationen sind valide und zeigen unterschiedliche Perspektiven auf denselben Text.

3. Question Generation

gemma3:4b-it-qat (3 Fragen, 3.7s)

Was ist die zentrale Aussage bezüglich Auftragsklärung?
→ Die Wichtigkeit einer guten Auftragsklärung kann gar nicht stark genug betont werden.
Welche Aussage wird getroffen, dass sich je nach Kontext ändert?
→ Je nachdem, um was es geht, wirst du nicht nur einen anderen 'Hut' aufsetzen...
Welche beiden Fragen werden als Ausgangspunkt für die Auftragsklärung genannt?
→ Worum genau geht es? Und worum geht es wirklich?

Claude Opus (3 Fragen, 6.7s)

Warum ist die Auftragsklärung mehr als nur eine Serviceleistung?
→ Die Auftragsklärung ist bereits eine erste Intervention, da sie den Prozess aktiviert...
Welche zwei zentralen Fragen sollten zu Beginn einer Auftragsklärung gestellt werden?
→ 'Worum genau geht es?' und 'Und worum geht es wirklich?'
Warum beeinflusst die Art des Auftrags die Arbeitsweise des Coaches?
→ Je nach Auftragsart nimmt der Coach eine andere Rolle ein...

Vergleich der Fragenqualität

Kriterium	gemma3	Claude Opus
Klarheit	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Tiefgang	⭐⭐⭐	⭐⭐⭐⭐⭐
Antwortqualität	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Geschwindigkeit	⭐⭐⭐⭐⭐	⭐⭐⭐

Gesamtbewertung

Modell	Gesamt-Zeit	JSON-Compliance	Qualität	Kosten	Empfehlung
gemma3:4b-it-qat	23.0s	✅ 100%	⭐⭐⭐⭐	Kostenlos	⭐ Beste Wahl für Pipeline
gpt-oss:20b	10.6s	❌ 0%	-	Kostenlos	Nicht geeignet
Claude Opus	20.3s	✅ 100%	⭐⭐⭐⭐⭐	~$0.05/Anfrage	Beste Qualität, aber teuer

Empfehlungen

Für die Pipeline (Massenverarbeitung)

→ gemma3:4b-it-qat

Exzellente JSON-Compliance
Gute Balance aus Geschwindigkeit und Qualität
Kostenlos und lokal
Findet mehr Entitäten als Claude Opus

Für Premium-Analyse

→ Claude Opus

Höchste Antwortqualität
Bessere Begründungen und Tiefgang
Für wichtige Dokumente oder Qualitätskontrolle

Nicht empfohlen

❌ gpt-oss:20b

Ignoriert JSON-Formatierungsanweisungen
Für strukturierte Ausgabe ungeeignet
Möglicherweise für freie Textgenerierung geeignet

Konfigurationsempfehlung


# config.py
DEFAULT_ANALYSIS_MODEL = "gemma3:4b-it-qat"  # Lokal, schnell, zuverlässig
PREMIUM_ANALYSIS_MODEL = "claude-opus-4-5-20251101"  # Für wichtige Dokumente

# Pipeline Steps
steps:
  - vision_analyze: minicpm-v:latest  # Vision bleibt bei MiniCPM
  - entity_extraction: gemma3:4b-it-qat
  - taxonomy_classification: gemma3:4b-it-qat
  - question_generation: gemma3:4b-it-qat  # Oder Claude für Premium