LLM-Generierung (Phase A7)
Ziel
Erzeugung einer Antwort auf Basis des bereitgestellten Kontextes. Das LLM ist reiner Formulierer, kein Wissensproduzent.
Grundprinzip
- LLM erzeugt Text, kein Wissen
- Wahrheit liegt weiterhin im System, nicht im Output
- Das LLM kombiniert und formuliert, erfindet nicht
Ablauf
- Prompt wird an das gewählte LLM übergeben
- LLM generiert Text innerhalb:
- Token-Limit (max_tokens)
- Temperature (Kreativität vs. Präzision)
- Systemregeln (aus System-Prompt)
- Ausgabe wird nicht verändert oder nachbearbeitet
Modell-Konfiguration
| Modell | Anbieter | Einsatz |
| Claude Sonnet 4 | Anthropic API | Produktion (Chat, Content) |
| Claude Opus 4.5 | Anthropic API | Komplexe Aufgaben |
| Mistral | Ollama (lokal) | Entwicklung, Tests |
| Gemma 2 | Ollama (lokal) | Schnelle Aufgaben |
API-Aufruf (Claude)
POST https://api.anthropic.com/v1/messages
{
"model": "claude-sonnet-4-20250514",
"max_tokens": 4096,
"system": "Du bist ein hilfreicher Assistent...",
"messages": [
{"role": "user", "content": "[Kontext]\n...\n[Frage]\n..."}
]
}
Ergebnisartefakte
- Roh-Antworttext
- Token-Verbrauch (input + output)
- Modell-Referenz
- Latenz
Beteiligte Komponenten
| Komponente | Pfad | Funktion |
| generate_response() | pipeline/rag.py | LLM-Aufruf |
| AnthropicClient | pipeline/llm_client.py | Claude API |
| OllamaClient | pipeline/llm_client.py | Lokale Modelle |
Prüfbedingungen für Supervision
- LLM hat ausschließlich den bereitgestellten Kontext genutzt
- Antwort enthält keine Informationen außerhalb des Kontexts
- Token-Verbrauch ist protokolliert
- Modellversion ist dokumentiert