你好，我是AI助理，可以解答问题、推荐解决方案等

开发者社区 ModelScope模型即服务语音文章正文

ModelScope模型即服务语音

内容

活动

关注

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

2025-01-21 3110

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 百聆是一款开源的AI语音对话助手，结合ASR、VAD、LLM和TTS技术，提供低延迟、高质量的语音对话体验，适用于边缘设备和低资源环境。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

技术核心：百聆结合语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，实现高效语音对话。
功能亮点：支持语音输入、智能对话生成、语音输出、打断功能、记忆功能、工具调用和任务管理。
应用场景：适用于智能家居控制、个人助理服务、汽车智能交互、教育辅助工具和办公辅助应用。

正文（附运行示例）

百聆是什么

bailing

百聆（Bailing）是一款开源的语音对话助手，基于语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，能够与用户进行自然的语音对话。百聆的端到端时延低至800ms，无需GPU即可运行，适用于各种边缘设备和低资源环境。

bailing - flowchart

百聆通过模块化设计，支持记忆功能、工具调用和任务管理，提供高质量的语音对话体验。其核心目标是在低资源环境下实现类GPT-4o的对话效果，适用于智能家居、个人助理、车载系统等多种场景。

百聆的主要功能

语音输入与识别：准确地将用户的语音输入转换为文本，为后续的对话处理提供基础。
语音活动检测：过滤掉无效的音频片段，只处理有效的语音部分，提高识别效率和准确性。
智能对话生成：基于大语言模型（LLM），生成自然、流畅且富有逻辑的文本回复。
语音输出与合成：将生成的文本回复转换为自然、逼真的语音，播放给用户。
支持打断：识别用户的关键字和语音打断行为，及时响应用户的即时反馈和控制指令。
记忆功能：记忆用户的偏好和历史对话，提供个性化的互动体验。
工具调用：支持集成外部工具，用户可通过语音指令直接请求信息或执行操作。
任务管理：高效管理用户任务，包括跟踪任务进度、设置提醒及提供动态更新。

百聆的技术原理

语音识别（ASR）：基于FunASR技术，将语音信号转换为文本数据，涉及语音信号的采集、预处理、特征提取及模式匹配。
语音活动检测（VAD）：基于silero-vad技术，实时监测和分析语音信号，判断是否包含有效的语音活动。
大语言模型（LLM）：使用deepseek作为核心模型，处理ASR输出的文本，生成自然、流畅的回复。
语音合成（TTS）：通过edge-tts等技术，将LLM生成的文本回复转换为语音信号，模拟人类的语音发音特点。

如何运行百聆

1. 克隆项目仓库

git clone https://github.com/wwbin2017/bailing.git cd bailing

2. 安装依赖

pip install -r requirements.txt

3. 配置环境变量

打开 config/config.yaml 文件，配置ASR、LLM等相关参数。
下载 SenseVoiceSmall 模型到 models/SenseVoiceSmall 目录。
获取 deepseek 的 api_key 并配置到项目中。

4. 启动服务

cd server python server.py # 启动后端服务

5. 运行主程序

python main.py

启动后，系统会等待语音输入，通过FunASR将语音转为文本，silero-vad进行语音活动检测，deepseek生成回复，最后通过edge-tts将文本转换为语音输出。

资源

GitHub 仓库：https://github.com/wwbin2017/bailing

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

文章标签：

智能语音交互

自然语言处理

关键词：

deepseek开源AI

来源：

开发者社区 > ModelScope模型即服务 > 语音 > 文章 > 正文

相关实践学习

达摩院智能语音交互 - 声纹识别技术

声纹识别是基于每个发音人的发音器官构造不同，识别当前发音人的身份。按照任务具体分为两种：声纹辨认：从说话人集合中判别出测试语音所属的说话人，为多选一的问题声纹确认：判断测试语音是否由目标说话人所说，是二选一的问题（是或者不是）按照应用具体分为两种：文本相关：要求使用者重复指定的话语，通常包含与训练信息相同的文本（精度较高，适合当前应用模式）文本无关：对使用者发音内容和语言没有要求，受信道环境影响比较大，精度不高本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。讲师介绍：郑斯奇，达摩院算法专家，毕业于美国哈佛大学，研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。

ModelScope模型即服务

语音

目录

相关文章

|

4月前

|

监控前端开发安全

如何集成第三方支付API到电商网站

在电商网站中，集成第三方支付API是确保交易安全、提升用户体验的关键步骤。本文详细介绍了从选择支付提供商到上线监控的全流程，涵盖代码示例与实用建议，助您高效实现支付功能。

243 0 0

Syscloud犀思云

|

2月前

|

人工智能监控数据可视化

如何破解AI推理延迟难题：构建敏捷多云算力网络

本文探讨了AI企业在突破算力瓶颈后，如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层，并深入解析了AI架构对网络提出的三大核心挑战：跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案，助力AI企业实现多云调度、业务融合承载与精细化流量管理，推动AI服务高效、稳定交付。

Syscloud犀思云

140 2 3

|

5月前

|

人工智能文字识别安全

趣丸千音MCP首发上线魔搭社区，多重技术引擎，解锁AI语音无限可能

近日，趣丸千音（All Voice Lab）MCP正式首发上线魔搭社区。用户只需简单文本输入，即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。

591 32 34

|

4月前

|

人工智能 Android开发 iOS开发

安卓版快捷指令，加了AI语音可以一句话操作v0.2.7

Shortcuts for Android（SFA）是一款安卓自动化工具，支持语音创建快捷指令，实现听歌、导航、发消息等操作。操作简单，提升效率，快来体验语音控制的便捷！

692 0 0

安卓版快捷指令，加了AI语音可以一句话操作v0.2.7

|

4月前

|

人工智能自然语言处理语音技术

深度解析：AI语音客服系统如何重塑客户服务体验与主流解决方案探析

在数字化浪潮下，AI语音客服凭借高效、便捷、24小时在线的优势，成为企业提升服务效率、优化体验的重要工具。本文详解其核心技术、应用价值、选型要点及市场主流方案，如阿里云通义晓蜜、合力亿捷等，助力企业智能化升级。

387 1 1

|

5月前

|

人工智能移动开发开发工具

H5录音、图文视频IndexDB储存最佳实践：用AI生成语音备忘录

随心记是一个由 AI 生成的网页备忘录，它支持语音录入（可下载）、图文视频记录。最重要的是，它支持离线使用，所有数据都储存在浏览器中，不依赖后端，刷新页面数据也不会丢失！

141 0 0

H5录音、图文视频IndexDB储存最佳实践：用AI生成语音备忘录

aliyun7374574637-16425

|

4月前

|

存储人工智能 Java

Springboot集成AI Springboot3 集成阿里云百炼大模型CosyVoice2 实现Ai克隆语音(未持久化存储)

本项目基于Spring Boot 3.5.3与Java 17，集成阿里云百炼大模型CosyVoice2实现音色克隆与语音合成。内容涵盖项目搭建、音色创建、音频合成、音色管理等功能，适用于希望快速掌握Spring Boot集成语音AI技术的开发者。需提前注册阿里云并获取API Key。

aliyun7374574637-16425

616 0 0

游客zi3qmblbcdexu

|

Java Maven Docker

gitlab-ci 集成 k3s 部署spring boot 应用

gitlab-ci 集成 k3s 部署spring boot 应用

游客zi3qmblbcdexu

328 1 1

|

12月前

|

消息中间件监控 Java

您是否已集成 Spring Boot 与 ActiveMQ？

您是否已集成 Spring Boot 与 ActiveMQ？

358 0 0

|

监控 druid Java

spring boot 集成配置阿里 Druid监控配置

spring boot 集成配置阿里 Druid监控配置

1105 6 7

热门文章

最新文章

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

FireRedASR：精准识别普通话、方言和歌曲歌词！小红书开源工业级自动语音识别模型

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Step-Audio：开源语音交互新标杆！这个国产AI能说方言会rap，1个模型搞定ASR+TTS+角色扮演

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

Hibiki：实时语音翻译模型打破语言交流障碍！支持将语音实时翻译成其他语言的语音或文本

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

Dolphin：40语种+22方言！清华联合海天瑞声推出的语音识别大模型，识别精度超Whisper两代

Text to Bark：让狗狗听懂人话！全球首个AI"狗语"生成器，137种狗狗口音任君挑选

PaddleSpeech：百度飞桨开源语音处理神器，识别合成翻译全搞定

EmotiVoice：网易开源AI语音合成黑科技，2000+音色情感可控

Oliva：语音RAG革命！开源多智能体秒解复杂搜索，实时对讲颠覆传统

MoshiVis：语音视觉实时交互开源！7B模型秒懂图像，无障碍革命来袭

Soundwave：语音对齐黑科技！开源模型秒解翻译问答，听懂情绪波动

GPT-4o-mini-transcribe：OpenAI 推出实时语音秒转文本模型！高性价比每分钟0.003美元

相关课程

通义灵码2.0 AI 编码训练营

基于Gradio的AI应用搭建实践课

AI通识课-人工智能通识基础

使用Higress AI网关优化AI调用成本

基于通义灵码实现高效AI编码实践

相关电子书

AI 原生应用开源开发者沙龙·上海站电子书

AI原生应用开发实战营—Serverless AI专场·北京

阿里云 AI 原生应用开发实战营

相关实验场景

使用AI容器镜像部署Qwen大语言模型