Ollama
Lokale LLM-Runtime für KI-Modelle. Nutzt die NVIDIA GPU für schnelle Inferenz ohne Cloud-Abhängigkeit. Ermöglicht datenschutzkonforme KI-Nutzung.
| Version | 0.13.5 |
| Port | 11434 |
| Modelle | /usr/share/ollama/.ollama/models |
Installierte Modelle
| Modell | Größe | Zweck |
| mxbai-embed-large | 669 MB | Embeddings (1024 dim) für KI-System |
| mistral | 4.4 GB | Chat, Analyse (7.2B) |
| llama3.2 | 2 GB | Schnelle Tasks (3.2B) |
Modell herunterladen
ollama pull mxbai-embed-large
ollama pull mistral
ollama pull llama3.2
ollama list
Modell ausführen
ollama run llama3.2
API - Chat
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Hallo!"
}'
API - Embeddings
curl http://localhost:11434/api/embeddings -d '{
"model": "mxbai-embed-large",
"prompt": "Text zum Embedden"
}'
Befehle
systemctl status ollama
ollama --version
ollama list