Whisper (OpenAI STT)

Whisper (OpenAI Speech-to-Text)

Whisper ist OpenAIs Speech-to-Text-API — bekannt für hohe Transkriptionsqualität über viele Sprachen hinweg, jetzt als OpenAI-API-Endpunkt verfügbar. Das Open-Source-Modell „whisper-1" ist seit Jahren Benchmark für akademische und professionelle STT-Nutzung. Für Studierende relevant als API für eigene Projekte oder als zugrungliegendes Modell hinter vielen Meeting-Transkriptions-Tools.

Wofür du das nutzt

Audio-Transkription in eigenen Projekten. Wenn du eine App, einen Lernassistenten oder ein Tool baust, das Audio verarbeiten soll, ist die Whisper-API der sauberste Einstieg.
Meeting-Aufnahmen und Vorlesungen transkribieren. Recorded Lectures, Gruppenarbeits-Calls oder eigene Sprachnotizen in Text umwandeln — günstig per API.
Mehrsprachige Transkription. Whisper erkennt Sprache automatisch und transkribiert in 99+ Sprachen. Besonders stark bei Deutsch, Englisch und den meisten europäischen Sprachen.
Lokale Nutzung via whisper.cpp. Das Open-Source-Modell (V3) läuft vollständig offline auf deinem Rechner — keine API-Kosten, keine Datenweitergabe. Für Datenschutz-First-Anwendungen der beste Weg.
Batch-Transkription. Stunden von Audio-Material günstig verarbeiten — API-Costs bei $0.003–0.006/Min sind auch für lange Aufnahmen überschaubar.

Stärken im Detail

Beste-Klasse Spracherkennung. Whisper (V3) ist bei Deutsch-Transkription besser als die meisten kommerziellen STT-Services — besonders bei Akzenten, Fachbegriffen und gemischten Sprachen.
Open-Source-Variante verfügbar. whisper.cpp, faster-whisper und andere Ports laufen lokal ohne API. Perfekt für Datenschutz und Offline-Nutzung.
Günstige API-Preise. $0.003/Min mit gpt-4o-mini-transcribe ist einer der günstigsten professionellen STT-Preise. 1 Stunde Audio kostet ca. $0.18.
Automatische Spracherkennung. Kein Vorab-Konfigurieren der Sprache nötig — Whisper erkennt sie im Audio selbst.

Grenzen & wo's hakt

Kein Web-Interface von OpenAI. Whisper ist eine API, kein Endnutzer-Tool. Für Meeting-Notizen ohne Coding → Granola oder Fathom.
Kein Speaker Diarization. Whisper transkribiert, trennt aber Sprecher nicht — du weißt nicht wer was gesagt hat. Für Mehrpersonen-Calls → AssemblyAI.
Kein Real-Time-Streaming im Standard. Die API verarbeitet Audio-Dateien, nicht Live-Streams. Für Echtzeit-Transkription → AssemblyAI oder Deepgram Streaming.
gpt-4o-transcribe eingestellt. Das höhere Modell ist seit 28.02.2026 nicht mehr verfügbar — der Nachfolger wird als gpt-4o-mini-transcribe geführt.
Große Dateien aufteilen. Dateien über 25 MB müssen vor der API-Übermittlung aufgeteilt werden.

Pricing (Stand 05/2026)

gpt-4o-mini-transcribe (Default) — $0.003/Min (= $0.18/Stunde) Aktuelles Default-Modell für Audio-Transkription. Gutes Preis-Leistungs-Verhältnis für die meisten Anwendungen.

whisper-1 (Legacy) — $0.006/Min (= $0.36/Stunde) Das ursprüngliche Open-Source-Whisper-Modell als API. Immer noch stark, aber doppelt so teuer wie das Mini-Modell.

gpt-4o-transcribe — EINGESTELLT (28.02.2026) Nicht mehr verfügbar. Bestehende Integrationen müssen auf gpt-4o-mini-transcribe umgestellt werden.

Lokal (whisper.cpp / faster-whisper) — kostenlos Dieselbe Modellqualität, offline, keine API-Kosten. Erfordert lokale Installation.

Praxis-Workflow

OpenAI API Key holen. platform.openai.com > API Keys.
Audio-Datei vorbereiten. Unterstützte Formate: mp3, mp4, m4a, wav, webm. Max 25 MB pro Request.

API-Call absetzen.

from openai import OpenAI
client = OpenAI()
with open("meeting.mp3", "rb") as audio:
    transcript = client.audio.transcriptions.create(
        model="gpt-4o-mini-transcribe",
        file=audio
    )
print(transcript.text)

Transkript weiterverarbeiten. In Claude für Zusammenfassung und Action Items, oder direkt in Descript importieren.

Datenschutz (kurz)

OpenAI verarbeitet Audio auf US-Servern. Für Produktiv-API-Kunden (Tier 2+) ist kein Training auf API-Inputs aktiv (Stand 05/2026). Für vollständig datenschutzkonformen Betrieb: lokale Ausführung mit whisper.cpp — keine Daten verlassen deinen Rechner. Für Aufnahmen mit Dritten: Einwilligung einholen, auch wenn du selbst transkribierst.

Quick-Win

Whisper (OpenAI Speech-to-Text)

Wofür du das nutzt

Audio-Transkription in eigenen Projekten. Wenn du eine App, einen Lernassistenten oder ein Tool baust, das Audio verarbeiten soll, ist die Whisper-API der sauberste Einstieg.
Meeting-Aufnahmen und Vorlesungen transkribieren. Recorded Lectures, Gruppenarbeits-Calls oder eigene Sprachnotizen in Text umwandeln — günstig per API.
Mehrsprachige Transkription. Whisper erkennt Sprache automatisch und transkribiert in 99+ Sprachen. Besonders stark bei Deutsch, Englisch und den meisten europäischen Sprachen.
Lokale Nutzung via whisper.cpp. Das Open-Source-Modell (V3) läuft vollständig offline auf deinem Rechner — keine API-Kosten, keine Datenweitergabe. Für Datenschutz-First-Anwendungen der beste Weg.
Batch-Transkription. Stunden von Audio-Material günstig verarbeiten — API-Costs bei $0.003–0.006/Min sind auch für lange Aufnahmen überschaubar.

Stärken im Detail

Beste-Klasse Spracherkennung. Whisper (V3) ist bei Deutsch-Transkription besser als die meisten kommerziellen STT-Services — besonders bei Akzenten, Fachbegriffen und gemischten Sprachen.
Open-Source-Variante verfügbar. whisper.cpp, faster-whisper und andere Ports laufen lokal ohne API. Perfekt für Datenschutz und Offline-Nutzung.
Günstige API-Preise. $0.003/Min mit gpt-4o-mini-transcribe ist einer der günstigsten professionellen STT-Preise. 1 Stunde Audio kostet ca. $0.18.
Automatische Spracherkennung. Kein Vorab-Konfigurieren der Sprache nötig — Whisper erkennt sie im Audio selbst.

Grenzen & wo's hakt

Kein Web-Interface von OpenAI. Whisper ist eine API, kein Endnutzer-Tool. Für Meeting-Notizen ohne Coding → Granola oder Fathom.
Kein Speaker Diarization. Whisper transkribiert, trennt aber Sprecher nicht — du weißt nicht wer was gesagt hat. Für Mehrpersonen-Calls → AssemblyAI.
Kein Real-Time-Streaming im Standard. Die API verarbeitet Audio-Dateien, nicht Live-Streams. Für Echtzeit-Transkription → AssemblyAI oder Deepgram Streaming.
gpt-4o-transcribe eingestellt. Das höhere Modell ist seit 28.02.2026 nicht mehr verfügbar — der Nachfolger wird als gpt-4o-mini-transcribe geführt.
Große Dateien aufteilen. Dateien über 25 MB müssen vor der API-Übermittlung aufgeteilt werden.

Pricing (Stand 05/2026)

gpt-4o-mini-transcribe (Default) — $0.003/Min (= $0.18/Stunde) Aktuelles Default-Modell für Audio-Transkription. Gutes Preis-Leistungs-Verhältnis für die meisten Anwendungen.

whisper-1 (Legacy) — $0.006/Min (= $0.36/Stunde) Das ursprüngliche Open-Source-Whisper-Modell als API. Immer noch stark, aber doppelt so teuer wie das Mini-Modell.

gpt-4o-transcribe — EINGESTELLT (28.02.2026) Nicht mehr verfügbar. Bestehende Integrationen müssen auf gpt-4o-mini-transcribe umgestellt werden.

Lokal (whisper.cpp / faster-whisper) — kostenlos Dieselbe Modellqualität, offline, keine API-Kosten. Erfordert lokale Installation.

Praxis-Workflow

OpenAI API Key holen. platform.openai.com > API Keys.
Audio-Datei vorbereiten. Unterstützte Formate: mp3, mp4, m4a, wav, webm. Max 25 MB pro Request.

API-Call absetzen.

from openai import OpenAI
client = OpenAI()
with open("meeting.mp3", "rb") as audio:
    transcript = client.audio.transcriptions.create(
        model="gpt-4o-mini-transcribe",
        file=audio
    )
print(transcript.text)

Transkript weiterverarbeiten. In Claude für Zusammenfassung und Action Items, oder direkt in Descript importieren.

Whisper (OpenAI Speech-to-Text)

Wofür du das nutzt

Stärken im Detail

Grenzen & wo's hakt

Pricing (Stand 05/2026)

Praxis-Workflow

Datenschutz (kurz)

Quick-Win

// Lokaler Graph

Whisper (OpenAI STT)

Whisper (OpenAI Speech-to-Text)

Wofür du das nutzt

Stärken im Detail

Grenzen & wo's hakt

Pricing (Stand 05/2026)

Praxis-Workflow

Datenschutz (kurz)

Quick-Win

// Lokaler Graph