AssemblyAI
Entwickler-STT-API mit reichhaltigen Audio-Intelligence-Features — Universal-3 Pro (seit Feb 2026) marktführend bei mehrsprachiger Genauigkeit, $50 Free Credits.
AssemblyAI
AssemblyAI ist die führende Speech-to-Text-API für Entwickler, die über reine Transkription hinausgehen wollen. Das Besondere ist das Ökosystem an Audio-Intelligence-Features: Speaker Diarization, Auto Chapters, Sentiment Analysis, Entity Detection, Topic Detection — alles direkt aus der API, kein Nachverarbeitung nötig. Das aktuelle Flaggschiff-Modell ist Universal-3 Pro (seit Feb 2026), das bei mehrsprachiger Genauigkeit neue Benchmarks setzt.
Wofür du das nutzt
- Vorlesungsaufnahmen mit Sprecheridentifikation. Speaker Diarization trennt Professor und Studierenden in der Transkription — du siehst wer was gefragt und geantwortet hat.
- Podcast-Produktion. Transkript mit automatischen Kapiteln, um Podcast-Episoden zu strukturieren und Show Notes zu generieren.
- Forschungsprojekte mit Audio-Material. Interviews, Fokusgruppen, Gesprächsanalyse — AssemblyAI extrahiert Themen, Entitäten und Sentiment direkt.
- Voice-Agent-Entwicklung. Die Streaming-STT-API ist auf niedrige Latenz für Echtzeit-Anwendungen optimiert — gut wenn du einen Sprach-Lernassistenten oder ein Voice-Interface baust.
- Medizinische Transkription. Mit Medical Mode ($0.15/Stunde Add-on) ist AssemblyAI auf medizinische Fachbegriffe optimiert — für Studierende in Medizin oder Pflege interessant.
Stärken im Detail
- Universal-3 Pro (seit Feb 2026). Aktuelles Flaggschiff-Modell: marktführende Genauigkeit bei mehrsprachiger STT (Englisch, Spanisch, Deutsch, Französisch, Italienisch, Portugiesisch).
- Reichhaltiges Feature-Set. Speaker Diarization, Auto Chapters, Sentiment Analysis, Topic Detection, Medical Mode — alles direkt in der API verfügbar ohne externes NLP-Post-Processing.
- $50 Free Credits. Neuer Account: $50 in Credits, kein Kreditkarte erforderlich. Das entspricht ~238 Stunden mit Universal-2 oder ~238 Stunden Basis-Transkription.
- Günstige Basis-Tarife. Universal-2 bei $0.15/Stunde — günstiger als viele Konkurrenten bei guter Qualität.
Grenzen & wo's hakt
- Entwickler-Tool, kein UI. AssemblyAI ist eine API — kein Meeting-Recorder, keine Browser-App. Für Nicht-Coder → Otter.ai, Fireflies.ai oder Tactiq.
- Kosten bei intensiver Nutzung. $0.21/Stunde klingt wenig, summiert sich bei einem Forschungsprojekt mit 100h Interviews auf $21 nur für Transkription.
- Englisch am stärksten. Universal-3 Pro deckt 6 Sprachen ab — für Deutsch gut, aber nicht alle Sprachen auf gleichem Niveau.
- Speaker Diarization Add-on. $0.02/Stunde extra für Sprecheridentifikation — vergiss nicht, das Feature explizit zu aktivieren.
Pricing (Stand 05/2026)
Free — $50 Credits für neue Accounts (kein Kreditkarte nötig). Danach Pay-per-Use.
Universal-3 Pro — $0.21/Stunde (marktführend mehrsprachig) 6 Sprachen, Entity Detection, Language Detection, Formatting, Filler Words, Keyterms Prompting.
Universal-2 — $0.15/Stunde 99 Sprachen, Basis-STT, breite Sprachunterstützung. Günstigste hochwertige Option.
Add-Ons:
- Keyterms Prompting: +$0.05/Stunde
- Speaker Diarization: +$0.02/Stunde
- Medical Mode: +$0.15/Stunde
Streaming STT (Universal-3 Pro) — $0.45/Stunde Voice Agent API — $4.50/Stunde ($0.075/Minute)
Praxis-Workflow
- Account erstellen. assemblyai.com — $50 Free Credits, kein Kreditkarte.
- API Key generieren. In der Console unter „API Keys".
- Audio hochladen und transkribieren.
import assemblyai as aai aai.settings.api_key = "your-key" transcriber = aai.Transcriber() config = aai.TranscriptionConfig(speaker_labels=True) transcript = transcriber.transcribe("lecture.mp3", config) for utt in transcript.utterances: print(f"{utt.speaker}: {utt.text}") - Ergebnis in Claude weiterverarbeiten. Transkript als Prompt-Kontext für Zusammenfassung, Action Items oder Analyse.
Datenschutz (kurz)
AssemblyAI verarbeitet auf US-Servern (AWS). Audio-Dateien werden nach 72 Stunden automatisch gelöscht — Transkripte bleiben im Account gespeichert bis zur manuellen Löschung. Für Aufnahmen mit Dritten (Interviews, Fokusgruppen) Einwilligung einholen. Enterprise-Plan bietet HIPAA-Compliance für medizinische Anwendungen. Wer EU-Hosting braucht: Speechmatics (Azure UK/EU) ist der DSGVO-freundliche Peer mit vergleichbarer STT-API-Qualität.