Ollama

Lokale LLM-Runtime für KI-Modelle. Nutzt die NVIDIA GPU für schnelle Inferenz ohne Cloud-Abhängigkeit. Ermöglicht datenschutzkonforme KI-Nutzung.

Version0.13.5
Port11434
Modelle/usr/share/ollama/.ollama/models

Installierte Modelle

ModellGrößeZweck
mxbai-embed-large669 MBEmbeddings (1024 dim) für KI-System
mistral4.4 GBChat, Analyse (7.2B)
llama3.22 GBSchnelle Tasks (3.2B)

Modell herunterladen

ollama pull mxbai-embed-large
ollama pull mistral
ollama pull llama3.2
ollama list

Modell ausführen

ollama run llama3.2

API - Chat

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hallo!"
}'

API - Embeddings

curl http://localhost:11434/api/embeddings -d '{
  "model": "mxbai-embed-large",
  "prompt": "Text zum Embedden"
}'

Befehle

systemctl status ollama
ollama --version
ollama list