speech-recognition

丝美导航 AI技能集通讯协作技能

speech-recognition

基于SenseVoice API的通用语音识别工具，实现音频文件到文字的转换。

标签：语音识别语音转文字通讯协作

链接直达手机查看

speech-recognition

speech-recognition是什么

通用语音识别Skill，适用于多种音频格式，利用SenseVoice API将语音转换为文字，适用于通讯协作场景。

由 demo112 开发 | 累计安装 652 次 | 开源协议：MIT-0

speech-recognition的主要功能

多格式支持：支持ogg、mp3、wav和m4a等多种音频格式
自动触发：用户发送语音消息、音频文件或需要转录音频时自动触发
语音转文字：利用SenseVoice API实现高精度语音转文字功能
免费使用：遵循MIT-0许可证，免费使用、修改和重新分发
安全可靠：经过VirusTotal和OpenClaw安全扫描，确保安全可靠

如何使用speech-recognition

上传音频：将音频文件上传至系统
自动识别：系统自动识别音频内容并转换为文字
文字输出：识别的文字输出至指定位置或设备
结果验证：检查转换的文字是否准确无误
保存或分享：保存转换后的文字或分享至其他平台

speech-recognition的项目地址

项目官网：https://clawhub.ai/demo112/speech-recognition

speech-recognition的应用场景

通讯协作中的语音记录转录
会议记录和总结
语音邮件处理
在线教育中的语音内容转换
客服中心语音转文字处理

相关导航

Zhipu AI ASR

Zhipu ASR，基于Zhipu AI GLM-ASR模型，提供高效中文音频到文本的转录服务。

Youtube Transcription Generator

利用VLM Run从YouTube视频自动生成文字转录，支持可选时间戳。

YouTube ASR Summarize (Local)

本地语音识别提取YouTube视频内容，生成无字幕视频摘要。

Yandex Speechkit STT via Telegram Gateway

通过Yandex SpeechKit API在Telegram中实现语音消息的语音识别，支持OggOpus、WAV、MP3格式。

Willow Inference Server

提供本地音频到文本和文本到音频的转换服务，适用于需要快速响应的语音处理场景。

Whisper Local Api

提供本地、安全的Whisper ASR服务，适用于OpenClaw，支持离线操作和隐私保护。

Webchat Voice Gui

Webchat Voice Gui是一款为OpenClaw WebChat添加语音输入和麦克风按钮的工具，支持音频录制和本地转录。

Volcengine STT

Volcengine STT，基于火山引擎API的音频转文本工具，替代Whisper/OpenAI STT。

voice-to-text

火山引擎语音转文字工具，利用BigModel ASR技术，实现快速、准确的语音到文字转换。

VoiceClaw

VoiceClaw是一款为OpenClaw代理提供本地语音输入输出的工具，支持离线语音识别和语音合成。

Voice Wake Say TTS Responses (Native)

在macOS上，通过内置的`say`命令，实现语音唤醒/语音识别消息的本地朗读响应。

Voice Wake Say

在macOS上通过语音识别触发，使用内置'say'命令朗读助手响应的语音唤醒工具。

暂无评论