SenseVoiceSmall 模型是阿里云通义实验室开发的一款音频基础模型,具备多种音频理解能力,包括自动语音识别(ASR)、语种识别(LID)、语音情感识别(SER)以及声学事件分类(AEC)和检测(AED)。
该模型专注于高精度的多语言语音识别,支持超过 50 种语言,识别效果优于 Whisper 模型。
我们可以通过 siliconflow 平台接入已经部署的 SenseVoiceSmall 模型,实现语音转文字功能。
注册 siliconflow 平台,并获取 API Key。
在 PIGX 管理后台进入 AI 模型管理页面,添加 SenseVoiceSmall 语音识别模型配置:
配置参数说明:
站点发布必须启用 HTTPS。引入语音录制功能需要依赖浏览器的 HTML5 接口,浏览器对录音功能的限制要求页面必须在 HTTPS 协议下运行。
配置完成后,在 AI 对话界面点击麦克风图标即可开始语音输入:
支持中文、英文等 50+ 种语言,识别准确率高,支持情感识别和声学事件检测。