Ollama
Lokale Laufzeit für Open-Weight-LLMs: ein Befehl im Terminal, Modell läuft, keine Cloud, keine Daten raus.
Ollama
Ollama ist eine Laufzeitumgebung für Open-Weight-Modelle auf deinem eigenen Rechner. Ein Kommando im Terminal — Modell läuft, OpenAI-kompatible API läuft, keine Cloud, keine Daten gehen raus. Das macht Ollama zur einfachsten Methode, um lokale KI in eigene Projekte zu integrieren oder DSGVO-sensible Texte zu verarbeiten, ohne einen Cloud-Anbieter zu benötigen.
Wofür du das nutzt
- Sensitive Texte lokal verarbeiten. Klausurfragen, Fallstudien, interne Dokumente — Ollama läuft vollständig offline. Kein Anbieter sieht deine Eingaben. Für DSGVO-relevante Inhalte ist das der einzige saubere Weg.
- Eigene KI-Projekte und Automationen. Ollama startet automatisch einen lokalen Server mit OpenAI-kompatibler API. Du kannst n8n, Dify oder eigene Python-Skripte direkt dagegen laufen lassen — ohne API-Kosten pro Token.
- Modelle vergleichen und evaluieren. Llama 4, Gemma 4, Qwen 3, DeepSeek-R1 — alle in einer Kommandozeile. Du kannst denselben Prompt gegen mehrere Modelle laufen lassen und schauen, welches für deinen Use-Case am besten passt.
- Lokalen Coding-Assistenten aufsetzen. Mit Aider als Terminal-Frontend oder einem Editor-Plugin kannst du Ollama als Backbone für einen Coding-Assistenten nutzen, der keine Daten nach außen sendet.
- Offline arbeiten. Kein WLAN, kein VPN, keine Rate Limits. Das Modell läuft, solange dein Laptop läuft.
Stärken im Detail
- 4.500+ Modelle im Ollama-Katalog. Llama 4 Scout (MoE, 17B aktiv), Qwen 3, Gemma 4, DeepSeek-R1, Mistral — alle per
ollama pull <modell>verfügbar. Quantisierte Versionen (Q4_K_M) laufen auch auf normaler Consumer-Hardware (Stand 05/2026). - OpenAI-kompatibler API-Endpoint. Standardmäßig unter
localhost:11434erreichbar. Jede App, die OpenAI-API-Format unterstützt, lässt sich mit Ollama verbinden — Codebase-Änderung: eine Zeile. - Automatisches GPU-Offloading. Ollama erkennt NVIDIA-CUDA, AMD-ROCm und Apple-Metal und nutzt die GPU automatisch. Kein manuelles CUDA-Setup nötig.
- Vollständig kostenlos und Open Source. MIT-Lizenz, kein Abo, keine Token-Kosten. Die laufenden Kosten beschränken sich auf Strom.
Grenzen & wo's hakt
- Hardware-Anforderungen sind real. 7B-Modelle (z.B. Gemma 4 9B, Qwen 3 8B) brauchen 8 GB RAM als Minimum — aber dann läuft wenig anderes daneben. Für 13B+ brauchst du 16 GB RAM oder Apple Silicon. Ohne GPU ist die Geschwindigkeit oft zu langsam für echte Arbeit.
- Kein grafisches Interface. Ollama ist ein CLI-Tool und Server. Wer ein Chat-Fenster erwartet: Jan oder LM Studio nehmen.
- Modellqualität ist nicht Cloud-Niveau. Lokale 7B-Modelle sind gut für strukturierte Aufgaben, aber GPT-5 oder Claude Opus 4 sind bei komplexen Aufgaben deutlich stärker. Ollama ist ideal für Datenschutz-Anforderungen, nicht als Ersatz für die besten Cloud-Modelle.
- Setup braucht Technik-Affinität. Terminal-Komfort ist Voraussetzung. Für den ersten Start mit Ollama brauchst du 10–15 Minuten, aber ohne CLI-Erfahrung ist die Hürde spürbar.
- Modell-Updates manuell. Ollama zieht keine neuen Modellversionen automatisch. Du musst selbst schauen, ob ein Update für ein genutztes Modell erschienen ist.
Pricing (Stand 05/2026)
Free (Open Source) — Vollständige lokale Nutzung: CLI, API-Server, 4.500+ Modelle. MIT-lizenziert, keine Token-Kosten, keine Registrierung. Laufende Kosten: nur Strom und Hardware.
Pro (~$20/Monat oder ~$200/Jahr) — Cloud-Inferenz auf Ollama-eigener Infrastruktur, höhere Rate Limits, Priority-Support. Für Nutzer, die Cloud-Rechenleistung ohne eigene Hardware wollen — lokale Open-Source-Nutzung bleibt immer kostenlos.
Max (~$100/Monat) — Höchste Cloud-Kapazität und Rate Limits für intensive Workloads. Für Studis kaum relevant.
Modell-Kosten (lokal): Null. Llama 4, Qwen 3, Gemma 4, DeepSeek-R1, Mistral und 4.500+ weitere Modelle sind kostenlos. Wenn du Ollama mit externen APIs kombinierst (z.B. Aider mit Cloud-Fallback), zahlst du nur die Kosten des externen Anbieters.
Praxis-Workflow für Einsteiger
- Ollama installieren.
brew install ollama(Mac) oder Installer von ollama.com — 5 Minuten. - Kleines Modell ziehen.
ollama pull qwen3:8b— läuft auf 8 GB RAM, 4–5 GB Download. - Ersten Test machen.
ollama run qwen3:8b "Erkläre mir den Unterschied zwischen Korrelation und Kausalität."— läuft komplett lokal. - API nutzen. Ollama startet automatisch auf
localhost:11434. Du kannst jetzt Tools wie Aider oder Dify mitbase_url=http://localhost:11434/v1verbinden. - Weitere Modelle erkunden.
ollama listzeigt installierte Modelle,ollama searchdurchsucht den Katalog. Probiere DeepSeek-R1 für Reasoning oder Gemma 4 für Vision.
Datenschutz (kurz)
Ollama läuft vollständig offline auf deiner Hardware. Kein Request geht an externe Server — weder Prompts noch Antworten verlassen deinen Rechner. Es gibt keine Telemetrie, kein Training auf deinen Inputs, keine Datenweitergabe an Dritte. Das macht Ollama zum datenschutztechnisch saubersten Tool im Cluster — und zur einzigen sinnvollen Option für wirklich sensible Dokumente.