语音-最新-阿里云开发者社区-阿里云

你好，我是AI助理，可以解答问题、推荐解决方案等

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

文章

视频

问答

推荐

活跃用户

语音

最新

文章

视频

问答

推荐

如何做一款高准确率去判断中文语音是否为同一人说的软件

Funasr GPU2.0.0部署推理，RTF达不到0.0008，连0.0076都达不到。

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

funasr 微调没有效果？微调数据量是多少，如何调整batch_size

PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

GPT-4o-mini-transcribe：OpenAI 推出实时语音秒转文本模型！高性价比每分钟0.003美元

GPT-4o-Transcribe：OpenAI 推出高性能语音转文本模型！错误率暴降90%+方言通杀，Whisper当场退役

GPT-4o mini TTS：OpenAI 推出轻量级文本转语音模型！情感操控+白菜价冲击配音圈

URO-Bench：端到端语音对话模型评测黑马！多语言/多轮/副语言全维度一键开测

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

Baichuan-Audio：端到端音频大模型，实时双语对话+语音生成

OSUM：告别ASR单一功能，西工大开源的语音大模型会「读心」！识别+情感分析+年龄预测等8大任务1个模型全搞定

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

Zonos：油管博主集体转粉！开源TTS神器Zonos爆火：克隆你的声音说5国语言，还能调喜怒哀乐

TIGER：清华突破性模型让AI「听觉」进化：参数量暴降94%，菜市场都能分离清晰人声

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

SpeechGPT 2.0：复旦大学开源端到端 AI 实时语音交互模型，实现 200ms 以内延迟的实时交互

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

TangoFlux：高速生成高质量音频，仅用3.7秒生成长达30秒的音频，支持文本到音频转换

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

Freestyler：微软联合西工大和香港大学推出说唱音乐生成模型，支持控制生成的音色、风格和节奏等

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

Fish Speech 1.5：Fish Audio 推出的零样本语音合成模型，支持13种语言

模型：语音合成-中文-多情感领域-16k-多发音人 语速调节

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

iic/speech_sambert-hifigan_tts_zh-cn_16k模型实时合成

wekws训练自定义数据集的误唤醒较高。

kws_util 下载不了

基于ModelScope进行推理，

使用开源的模型（像speech_sambert-hifigan_tts_zhida_zh-cn_16k）进行语音合成任务的推理时，推理速度太慢了，500字大约需要1分钟，为什么会这么慢

请问iic/speech_sambert-hifigan_tts_zh-cn_16k模型如何离线部署

目前有没有什么对于识别英语、俄语、韩语有较高准确率的语音模型

智能语音合成后，JAVA SDK的demo中是直接生成了wav音频文件，怎么样让他生成完成后直接播放

使用0.3.0版本的ttsfrd， coredump

关于自定义语音唤醒

在Windows平台上关于 ModelScorpe Audio 安装涉及 kwsbp 的问题

活跃用户

相关产品

模型：语音合成-中文-多情感领域-16k-多发音人语速调节