Pipeline Qualitätsreport: LLM-Modellvergleich
Datum: 2025-12-22
Testdokument: Lernunterlagen_Teamcoach-Ausbildung-2026_extrakt_auftragsklaerung.pdf
Dokumentgröße: 5 Seiten, 12 Chunks, 9.890 Zeichen
Getestete Modelle
| Modell | Typ | Größe | Anbieter |
|---|---|---|---|
| gemma3:4b-it-qat | Quantisiert | 4 GB | Ollama (lokal) |
| gpt-oss:20b | Full Precision | 13 GB | Ollama (lokal) |
| claude-opus-4-5-20251101 | API | - | Anthropic |
1. Entity Extraction
Ergebnisübersicht
| Modell | Entitäten | Zeit | Tokens | Qualität |
|---|---|---|---|---|
| gemma3:4b-it-qat | 19 | 17.2s | 712 | ⭐⭐⭐⭐ |
| gpt-oss:20b | 0 | 4.9s | 74 | ❌ JSON-Fehler |
| Claude Opus | 12 | 9.7s | 1899 | ⭐⭐⭐⭐⭐ |
Extrahierte Entitäten (Top 5 pro Modell)
gemma3:4b-it-qat
- Systemischer Teamcoach (CONCEPT)
- Teamentwicklung (CONCEPT)
- Konfliktklärung (CONCEPT)
- Entscheidungsfindung (CONCEPT)
- Teambuilding (CONCEPT)
Bewertung: Sehr umfassend, findet auch implizite Konzepte
Claude Opus
- Auftragsklärung (CONCEPT)
- Teambuilding (CONCEPT)
- Prozessbegleitung (CONCEPT)
- Teamentwicklung (CONCEPT)
- Teamcoaching (CONCEPT)
Bewertung: Präzise, fokussiert auf Kernkonzepte
gpt-oss:20b
❌ Keine valide JSON-Ausgabe. Das Modell ignorierte die Formatierungsanweisung und produzierte Freitext.
2. Taxonomy Classification
| Modell | Kategorien | Konfidenz |
|---|---|---|
| gemma3:4b-it-qat | Theorie, Methoden, Praxis | 0.95 |
| gpt-oss:20b | - | 0 |
| Claude Opus | Organisation, Methoden, Kommunikation | 0.85 |
Analyse
- gemma3: Betont den Lerncharakter (Theorie/Praxis)
- Claude Opus: Betont den prozessualen Charakter (Organisation/Kommunikation)
Beide Klassifikationen sind valide und zeigen unterschiedliche Perspektiven auf denselben Text.
3. Question Generation
gemma3:4b-it-qat (3 Fragen, 3.7s)
- Was ist die zentrale Aussage bezüglich Auftragsklärung?
→ Die Wichtigkeit einer guten Auftragsklärung kann gar nicht stark genug betont werden. - Welche Aussage wird getroffen, dass sich je nach Kontext ändert?
→ Je nachdem, um was es geht, wirst du nicht nur einen anderen 'Hut' aufsetzen... - Welche beiden Fragen werden als Ausgangspunkt für die Auftragsklärung genannt?
→ Worum genau geht es? Und worum geht es wirklich?
Claude Opus (3 Fragen, 6.7s)
- Warum ist die Auftragsklärung mehr als nur eine Serviceleistung?
→ Die Auftragsklärung ist bereits eine erste Intervention, da sie den Prozess aktiviert... - Welche zwei zentralen Fragen sollten zu Beginn einer Auftragsklärung gestellt werden?
→ 'Worum genau geht es?' und 'Und worum geht es wirklich?' - Warum beeinflusst die Art des Auftrags die Arbeitsweise des Coaches?
→ Je nach Auftragsart nimmt der Coach eine andere Rolle ein...
Vergleich der Fragenqualität
| Kriterium | gemma3 | Claude Opus |
|---|---|---|
| Klarheit | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Tiefgang | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Antwortqualität | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Geschwindigkeit | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
Gesamtbewertung
| Modell | Gesamt-Zeit | JSON-Compliance | Qualität | Kosten | Empfehlung |
|---|---|---|---|---|---|
| gemma3:4b-it-qat | 23.0s | ✅ 100% | ⭐⭐⭐⭐ | Kostenlos | ⭐ Beste Wahl für Pipeline |
| gpt-oss:20b | 10.6s | ❌ 0% | - | Kostenlos | Nicht geeignet |
| Claude Opus | 20.3s | ✅ 100% | ⭐⭐⭐⭐⭐ | ~$0.05/Anfrage | Beste Qualität, aber teuer |
Empfehlungen
Für die Pipeline (Massenverarbeitung)
→ gemma3:4b-it-qat
- Exzellente JSON-Compliance
- Gute Balance aus Geschwindigkeit und Qualität
- Kostenlos und lokal
- Findet mehr Entitäten als Claude Opus
Für Premium-Analyse
→ Claude Opus
- Höchste Antwortqualität
- Bessere Begründungen und Tiefgang
- Für wichtige Dokumente oder Qualitätskontrolle
Nicht empfohlen
❌ gpt-oss:20b
- Ignoriert JSON-Formatierungsanweisungen
- Für strukturierte Ausgabe ungeeignet
- Möglicherweise für freie Textgenerierung geeignet
Konfigurationsempfehlung
# config.py
DEFAULT_ANALYSIS_MODEL = "gemma3:4b-it-qat" # Lokal, schnell, zuverlässig
PREMIUM_ANALYSIS_MODEL = "claude-opus-4-5-20251101" # Für wichtige Dokumente
# Pipeline Steps
steps:
- vision_analyze: minicpm-v:latest # Vision bleibt bei MiniCPM
- entity_extraction: gemma3:4b-it-qat
- taxonomy_classification: gemma3:4b-it-qat
- question_generation: gemma3:4b-it-qat # Oder Claude für Premium