Pipeline Qualitätsreport: LLM-Modellvergleich

Datum: 2025-12-22
Testdokument: Lernunterlagen_Teamcoach-Ausbildung-2026_extrakt_auftragsklaerung.pdf
Dokumentgröße: 5 Seiten, 12 Chunks, 9.890 Zeichen

Getestete Modelle

ModellTypGrößeAnbieter
gemma3:4b-it-qatQuantisiert4 GBOllama (lokal)
gpt-oss:20bFull Precision13 GBOllama (lokal)
claude-opus-4-5-20251101API-Anthropic

1. Entity Extraction

Ergebnisübersicht

ModellEntitätenZeitTokensQualität
gemma3:4b-it-qat1917.2s712⭐⭐⭐⭐
gpt-oss:20b04.9s74❌ JSON-Fehler
Claude Opus129.7s1899⭐⭐⭐⭐⭐

Extrahierte Entitäten (Top 5 pro Modell)

gemma3:4b-it-qat

Bewertung: Sehr umfassend, findet auch implizite Konzepte

Claude Opus

Bewertung: Präzise, fokussiert auf Kernkonzepte

gpt-oss:20b

Keine valide JSON-Ausgabe. Das Modell ignorierte die Formatierungsanweisung und produzierte Freitext.

2. Taxonomy Classification

ModellKategorienKonfidenz
gemma3:4b-it-qatTheorie, Methoden, Praxis0.95
gpt-oss:20b-0
Claude OpusOrganisation, Methoden, Kommunikation0.85

Analyse

Beide Klassifikationen sind valide und zeigen unterschiedliche Perspektiven auf denselben Text.

3. Question Generation

gemma3:4b-it-qat (3 Fragen, 3.7s)

  1. Was ist die zentrale Aussage bezüglich Auftragsklärung?
    → Die Wichtigkeit einer guten Auftragsklärung kann gar nicht stark genug betont werden.
  2. Welche Aussage wird getroffen, dass sich je nach Kontext ändert?
    → Je nachdem, um was es geht, wirst du nicht nur einen anderen 'Hut' aufsetzen...
  3. Welche beiden Fragen werden als Ausgangspunkt für die Auftragsklärung genannt?
    → Worum genau geht es? Und worum geht es wirklich?

Claude Opus (3 Fragen, 6.7s)

  1. Warum ist die Auftragsklärung mehr als nur eine Serviceleistung?
    → Die Auftragsklärung ist bereits eine erste Intervention, da sie den Prozess aktiviert...
  2. Welche zwei zentralen Fragen sollten zu Beginn einer Auftragsklärung gestellt werden?
    → 'Worum genau geht es?' und 'Und worum geht es wirklich?'
  3. Warum beeinflusst die Art des Auftrags die Arbeitsweise des Coaches?
    → Je nach Auftragsart nimmt der Coach eine andere Rolle ein...

Vergleich der Fragenqualität

Kriteriumgemma3Claude Opus
Klarheit⭐⭐⭐⭐⭐⭐⭐⭐⭐
Tiefgang⭐⭐⭐⭐⭐⭐⭐⭐
Antwortqualität⭐⭐⭐⭐⭐⭐⭐⭐⭐
Geschwindigkeit⭐⭐⭐⭐⭐⭐⭐⭐

Gesamtbewertung

ModellGesamt-ZeitJSON-ComplianceQualitätKostenEmpfehlung
gemma3:4b-it-qat23.0s✅ 100%⭐⭐⭐⭐Kostenlos⭐ Beste Wahl für Pipeline
gpt-oss:20b10.6s❌ 0%-KostenlosNicht geeignet
Claude Opus20.3s✅ 100%⭐⭐⭐⭐⭐~$0.05/AnfrageBeste Qualität, aber teuer

Empfehlungen

Für die Pipeline (Massenverarbeitung)

→ gemma3:4b-it-qat

Für Premium-Analyse

→ Claude Opus

Nicht empfohlen

❌ gpt-oss:20b

Konfigurationsempfehlung


# config.py
DEFAULT_ANALYSIS_MODEL = "gemma3:4b-it-qat"  # Lokal, schnell, zuverlässig
PREMIUM_ANALYSIS_MODEL = "claude-opus-4-5-20251101"  # Für wichtige Dokumente

# Pipeline Steps
steps:
  - vision_analyze: minicpm-v:latest  # Vision bleibt bei MiniCPM
  - entity_extraction: gemma3:4b-it-qat
  - taxonomy_classification: gemma3:4b-it-qat
  - question_generation: gemma3:4b-it-qat  # Oder Claude für Premium