Whisper (OpenAI STT)
OpenAIs Speech-to-Text-API — gpt-4o-transcribe eingestellt (28.02.2026), Default gpt-4o-mini-transcribe ($0.003/Min), whisper-1 Legacy ($0.006/Min). Open-Source lokal via whisper.cpp.
Whisper (OpenAI Speech-to-Text)
Whisper ist OpenAIs Speech-to-Text-API — bekannt für hohe Transkriptionsqualität über viele Sprachen hinweg, jetzt als OpenAI-API-Endpunkt verfügbar. Das Open-Source-Modell „whisper-1" ist seit Jahren Benchmark für akademische und professionelle STT-Nutzung. Für Studierende relevant als API für eigene Projekte oder als zugrungliegendes Modell hinter vielen Meeting-Transkriptions-Tools.
Wofür du das nutzt
- Audio-Transkription in eigenen Projekten. Wenn du eine App, einen Lernassistenten oder ein Tool baust, das Audio verarbeiten soll, ist die Whisper-API der sauberste Einstieg.
- Meeting-Aufnahmen und Vorlesungen transkribieren. Recorded Lectures, Gruppenarbeits-Calls oder eigene Sprachnotizen in Text umwandeln — günstig per API.
- Mehrsprachige Transkription. Whisper erkennt Sprache automatisch und transkribiert in 99+ Sprachen. Besonders stark bei Deutsch, Englisch und den meisten europäischen Sprachen.
- Lokale Nutzung via whisper.cpp. Das Open-Source-Modell (V3) läuft vollständig offline auf deinem Rechner — keine API-Kosten, keine Datenweitergabe. Für Datenschutz-First-Anwendungen der beste Weg.
- Batch-Transkription. Stunden von Audio-Material günstig verarbeiten — API-Costs bei $0.003–0.006/Min sind auch für lange Aufnahmen überschaubar.
Stärken im Detail
- Beste-Klasse Spracherkennung. Whisper (V3) ist bei Deutsch-Transkription besser als die meisten kommerziellen STT-Services — besonders bei Akzenten, Fachbegriffen und gemischten Sprachen.
- Open-Source-Variante verfügbar. whisper.cpp, faster-whisper und andere Ports laufen lokal ohne API. Perfekt für Datenschutz und Offline-Nutzung.
- Günstige API-Preise. $0.003/Min mit gpt-4o-mini-transcribe ist einer der günstigsten professionellen STT-Preise. 1 Stunde Audio kostet ca. $0.18.
- Automatische Spracherkennung. Kein Vorab-Konfigurieren der Sprache nötig — Whisper erkennt sie im Audio selbst.
Grenzen & wo's hakt
- Kein Web-Interface von OpenAI. Whisper ist eine API, kein Endnutzer-Tool. Für Meeting-Notizen ohne Coding → Otter.ai, Fireflies.ai oder Tactiq.
- Kein Speaker Diarization. Whisper transkribiert, trennt aber Sprecher nicht — du weißt nicht wer was gesagt hat. Für Mehrpersonen-Calls → AssemblyAI.
- Kein Real-Time-Streaming im Standard. Die API verarbeitet Audio-Dateien, nicht Live-Streams. Für Echtzeit-Transkription → Speechmatics oder AssemblyAI Streaming.
- gpt-4o-transcribe eingestellt. Das höhere Modell ist seit 28.02.2026 nicht mehr verfügbar — der Nachfolger wird als gpt-4o-mini-transcribe geführt.
- Große Dateien aufteilen. Dateien über 25 MB müssen vor der API-Übermittlung aufgeteilt werden.
Pricing (Stand 05/2026)
gpt-4o-mini-transcribe (Default) — $0.003/Min (= $0.18/Stunde) Aktuelles Default-Modell für Audio-Transkription. Gutes Preis-Leistungs-Verhältnis für die meisten Anwendungen.
whisper-1 (Legacy) — $0.006/Min (= $0.36/Stunde) Das ursprüngliche Open-Source-Whisper-Modell als API. Immer noch stark, aber doppelt so teuer wie das Mini-Modell.
gpt-4o-transcribe — EINGESTELLT (28.02.2026) Nicht mehr verfügbar. Bestehende Integrationen müssen auf gpt-4o-mini-transcribe umgestellt werden.
Lokal (whisper.cpp / faster-whisper) — kostenlos Dieselbe Modellqualität, offline, keine API-Kosten. Erfordert lokale Installation.
Praxis-Workflow
- OpenAI API Key holen. platform.openai.com > API Keys.
- Audio-Datei vorbereiten. Unterstützte Formate: mp3, mp4, m4a, wav, webm. Max 25 MB pro Request.
- API-Call absetzen.
from openai import OpenAI client = OpenAI() with open("meeting.mp3", "rb") as audio: transcript = client.audio.transcriptions.create( model="gpt-4o-mini-transcribe", file=audio ) print(transcript.text) - Transkript weiterverarbeiten. In Claude für Zusammenfassung und Action Items, oder direkt in Descript importieren.
Datenschutz (kurz)
OpenAI verarbeitet Audio auf US-Servern. Für Produktiv-API-Kunden (Tier 2+) ist kein Training auf API-Inputs aktiv (Stand 05/2026). Für vollständig datenschutzkonformen Betrieb: lokale Ausführung mit whisper.cpp — keine Daten verlassen deinen Rechner. Für Aufnahmen mit Dritten: Einwilligung einholen, auch wenn du selbst transkribierst.