Whisper STT
Whisper STT — скилл для преобразования речи в текст с использованием модели OpenAI Whisper. Он поддерживает распознавание речи на более чем 100 языках, включая русский, с высокой точностью даже в условиях шума и акцента.
Возможности скилла: транскрипция аудиофайлов (mp3, wav, m4a, ogg, flac), извлечение аудио из видеофайлов с последующей транскрипцией, автоматическое определение языка, генерация таймкодов для каждого сегмента, перевод речи на английский язык. Поддерживается как облачный API OpenAI (быстрее, платный), так и локальная модель Whisper (бесплатно, требует GPU).
Для облачного режима нужен API-ключ OpenAI ($0.006/мин). Для локального — установленный Python и whisper. Типичные сценарии: транскрипция совещаний и интервью, создание субтитров для видео, оцифровка голосовых заметок, распознавание голосовых команд для управления агентом. Отлично дополняет elevenlabs-agent для создания полного голосового интерфейса и youtube-summary для обработки видео без субтитров.
Установка
clawhub install whisper
Установка: clawhub install whisper