Ollama

Ollama ist eine Laufzeitumgebung für Open-Weight-Modelle auf deinem eigenen Rechner. Ein Kommando im Terminal — Modell läuft, OpenAI-kompatible API läuft, keine Cloud, keine Daten gehen raus. Das macht Ollama zur einfachsten Methode, um lokale KI in eigene Projekte zu integrieren oder DSGVO-sensible Texte zu verarbeiten, ohne einen Cloud-Anbieter zu benötigen.

Wofür du das nutzt

Sensitive Texte lokal verarbeiten. Klausurfragen, Fallstudien, interne Dokumente — Ollama läuft vollständig offline. Kein Anbieter sieht deine Eingaben. Für DSGVO-relevante Inhalte ist das der einzige saubere Weg.
Eigene KI-Projekte und Automationen. Ollama startet automatisch einen lokalen Server mit OpenAI-kompatibler API. Du kannst n8n, Dify oder eigene Python-Skripte direkt dagegen laufen lassen — ohne API-Kosten pro Token.
Modelle vergleichen und evaluieren. Llama 4, Gemma 4, Qwen 3, DeepSeek-R1 — alle in einer Kommandozeile. Du kannst denselben Prompt gegen mehrere Modelle laufen lassen und schauen, welches für deinen Use-Case am besten passt.
Lokalen Coding-Assistenten aufsetzen. Mit Aider als Terminal-Frontend oder einem Editor-Plugin kannst du Ollama als Backbone für einen Coding-Assistenten nutzen, der keine Daten nach außen sendet.
Offline arbeiten. Kein WLAN, kein VPN, keine Rate Limits. Das Modell läuft, solange dein Laptop läuft.

Stärken im Detail

4.500+ Modelle im Ollama-Katalog. Llama 4 Scout (MoE, 17B aktiv), Qwen 3, Gemma 4, DeepSeek-R1, Mistral — alle per ollama pull <modell> verfügbar. Quantisierte Versionen (Q4_K_M) laufen auch auf normaler Consumer-Hardware (Stand 05/2026).
OpenAI-kompatibler API-Endpoint. Standardmäßig unter localhost:11434 erreichbar. Jede App, die OpenAI-API-Format unterstützt, lässt sich mit Ollama verbinden — Codebase-Änderung: eine Zeile.
Automatisches GPU-Offloading. Ollama erkennt NVIDIA-CUDA, AMD-ROCm und Apple-Metal und nutzt die GPU automatisch. Kein manuelles CUDA-Setup nötig.
Vollständig kostenlos und Open Source. MIT-Lizenz, kein Abo, keine Token-Kosten. Die laufenden Kosten beschränken sich auf Strom.

Grenzen & wo's hakt

Hardware-Anforderungen sind real. 7B-Modelle (z.B. Gemma 4 9B, Qwen 3 8B) brauchen 8 GB RAM als Minimum — aber dann läuft wenig anderes daneben. Für 13B+ brauchst du 16 GB RAM oder Apple Silicon. Ohne GPU ist die Geschwindigkeit oft zu langsam für echte Arbeit.
Kein grafisches Interface. Ollama ist ein CLI-Tool und Server. Wer ein Chat-Fenster erwartet: Jan oder LM Studio nehmen.
Modellqualität ist nicht Cloud-Niveau. Lokale 7B-Modelle sind gut für strukturierte Aufgaben, aber GPT-5 oder Claude Opus 4 sind bei komplexen Aufgaben deutlich stärker. Ollama ist ideal für Datenschutz-Anforderungen, nicht als Ersatz für die besten Cloud-Modelle.
Setup braucht Technik-Affinität. Terminal-Komfort ist Voraussetzung. Für den ersten Start mit Ollama brauchst du 10–15 Minuten, aber ohne CLI-Erfahrung ist die Hürde spürbar.
Modell-Updates manuell. Ollama zieht keine neuen Modellversionen automatisch. Du musst selbst schauen, ob ein Update für ein genutztes Modell erschienen ist.

Pricing (Stand 05/2026)

Free (Open Source) — Vollständige lokale Nutzung: CLI, API-Server, 4.500+ Modelle. MIT-lizenziert, keine Token-Kosten, keine Registrierung. Laufende Kosten: nur Strom und Hardware.

Pro (~$20/Monat oder ~$200/Jahr) — Cloud-Inferenz auf Ollama-eigener Infrastruktur, höhere Rate Limits, Priority-Support. Für Nutzer, die Cloud-Rechenleistung ohne eigene Hardware wollen — lokale Open-Source-Nutzung bleibt immer kostenlos.

Max (~$100/Monat) — Höchste Cloud-Kapazität und Rate Limits für intensive Workloads. Für Studis kaum relevant.

Modell-Kosten (lokal): Null. Llama 4, Qwen 3, Gemma 4, DeepSeek-R1, Mistral und 4.500+ weitere Modelle sind kostenlos. Wenn du Ollama mit externen APIs kombinierst (z.B. Aider mit Cloud-Fallback), zahlst du nur die Kosten des externen Anbieters.

Praxis-Workflow für Einsteiger

Ollama installieren. brew install ollama (Mac) oder Installer von ollama.com — 5 Minuten.
Kleines Modell ziehen. ollama pull qwen3:8b — läuft auf 8 GB RAM, 4–5 GB Download.
Ersten Test machen. ollama run qwen3:8b "Erkläre mir den Unterschied zwischen Korrelation und Kausalität." — läuft komplett lokal.
API nutzen. Ollama startet automatisch auf localhost:11434. Du kannst jetzt Tools wie Aider oder Dify mit base_url=http://localhost:11434/v1 verbinden.
Weitere Modelle erkunden. ollama list zeigt installierte Modelle, ollama search durchsucht den Katalog. Probiere DeepSeek-R1 für Reasoning oder Gemma 4 für Vision.

Datenschutz (kurz)

Ollama läuft vollständig offline auf deiner Hardware. Kein Request geht an externe Server — weder Prompts noch Antworten verlassen deinen Rechner. Es gibt keine Telemetrie, kein Training auf deinen Inputs, keine Datenweitergabe an Dritte. Das macht Ollama zum datenschutztechnisch saubersten Tool im Cluster — und zur einzigen sinnvollen Option für wirklich sensible Dokumente.

Ollama

Ollama

Wofür du das nutzt

Stärken im Detail

Grenzen & wo's hakt

Pricing (Stand 05/2026)

Praxis-Workflow für Einsteiger

Datenschutz (kurz)

Quick-Win

// Lokaler Graph

Ollama

Ollama

Wofür du das nutzt

Stärken im Detail

Grenzen & wo's hakt

Pricing (Stand 05/2026)

Praxis-Workflow für Einsteiger

Datenschutz (kurz)

Quick-Win

// Lokaler Graph