LLM-Generierung

LLM-Generierung (Phase A7)

Ziel

Erzeugung einer Antwort auf Basis des bereitgestellten Kontextes. Das LLM ist reiner Formulierer, kein Wissensproduzent.

Grundprinzip

LLM erzeugt Text, kein Wissen
Wahrheit liegt weiterhin im System, nicht im Output
Das LLM kombiniert und formuliert, erfindet nicht

Ablauf

Prompt wird an das gewählte LLM übergeben
LLM generiert Text innerhalb:
- Token-Limit (max_tokens)
- Temperature (Kreativität vs. Präzision)
- Systemregeln (aus System-Prompt)
Ausgabe wird nicht verändert oder nachbearbeitet

Modell-Konfiguration

Modell	Anbieter	Einsatz
Claude Sonnet 4	Anthropic API	Produktion (Chat, Content)
Claude Opus 4.5	Anthropic API	Komplexe Aufgaben
Mistral	Ollama (lokal)	Entwicklung, Tests
Gemma 2	Ollama (lokal)	Schnelle Aufgaben

API-Aufruf (Claude)

POST https://api.anthropic.com/v1/messages
{
  "model": "claude-sonnet-4-20250514",
  "max_tokens": 4096,
  "system": "Du bist ein hilfreicher Assistent...",
  "messages": [
    {"role": "user", "content": "[Kontext]\n...\n[Frage]\n..."}
  ]
}

Ergebnisartefakte

Roh-Antworttext
Token-Verbrauch (input + output)
Modell-Referenz
Latenz

Beteiligte Komponenten

Komponente	Pfad	Funktion
generate_response()	`pipeline/rag.py`	LLM-Aufruf
AnthropicClient	`pipeline/llm_client.py`	Claude API
OllamaClient	`pipeline/llm_client.py`	Lokale Modelle

Prüfbedingungen für Supervision

LLM hat ausschließlich den bereitgestellten Kontext genutzt
Antwort enthält keine Informationen außerhalb des Kontexts
Token-Verbrauch ist protokolliert
Modellversion ist dokumentiert