Erstellt: 2025-12-24 | Aktualisiert: 2025-12-24

Embedding-Generierung

Funktion

Eingabe

Ausgabe

Embedding-Modell

EigenschaftWert
Modellmxbai-embed-large
AnbieterOllama (lokal)
Dimensionen1536
Max Context512 Token (~800 Zeichen)
SprachenMultilingual (inkl. Deutsch)

Beteiligte Komponenten

KomponentePfadFunktion
get_embedding()pipeline/embed.py:20Embedding via Ollama API
Ollama APIlocalhost:11434Lokaler Embedding-Service
config.pypipeline/config.pyEMBEDDING_MODEL, EMBEDDING_DIMENSION

Ablauf

  1. Chunk-Text laden
  2. Text bereinigen (Punktfolgen reduzieren)
  3. Auf 800 Zeichen truncaten falls nötig
  4. POST an Ollama /api/embeddings
  5. Vektor aus Response extrahieren
  6. Weiter an Vektorspeicherung

Code-Beispiel

# pipeline/embed.py
def get_embedding(text):
    response = requests.post(
        f"{OLLAMA_HOST}/api/embeddings",
        json={"model": EMBEDDING_MODEL, "prompt": text},
        timeout=60
    )
    return response.json().get("embedding")

Fehlerbehandlung