丝美导航 AI技能集 开发工具技能

Gemini STT

利用Google Gemini API或Vertex AI进行音频文件转录的开发工具。

标签:
分享到:

Gemini STT

Gemini STT是什么

Gemini STT是一款基于Google Gemini API或Vertex AI的音频转录工具,适用于开发者和需要音频转文本功能的场景。

araa47 开发 | 累计安装 2,653 次 | 开源协议:MIT-0

Gemini STT的主要功能

  • 音频转录:支持多种音频格式,如ogg, mp3, wav等,利用Google的先进技术进行准确转录。
  • 模型选择:提供多种Gemini模型选择,满足不同速度和准确度的需求。
  • 认证灵活:支持使用Vertex AI默认凭证或直接使用Gemini API密钥进行认证。
  • 集成方便:易于集成到现有系统中,支持Clawdbot等平台的语音消息处理。
  • 无依赖:无需额外Python依赖,仅使用stdlib,简化部署。

如何使用Gemini STT

  • 安装:确保Python 3.10+环境,下载并解压Gemini STT工具包。
  • 配置认证:配置Vertex AI默认凭证或设置GEMINI_API_KEY环境变量。
  • 选择模型:根据需求选择合适的Gemini模型。
  • 转录音频:运行transcribe.py脚本,指定音频文件路径和模型选项。
  • 结果处理:查看转录结果,可用于进一步处理或集成。

Gemini STT的项目地址

  • 项目官网https://clawhub.ai/araa47/gemini-stt

Gemini STT的应用场景

  • 自动化语音转文本处理,如会议记录、客服录音等。
  • 开发语音识别应用,如智能助手、语音搜索等。
  • 处理社交媒体上的语音消息,如Telegram语音消息等。

相关导航