Fish Audio 正式推出全新一代文本转语音(TTS)模型 S2,为开源 TTS 在表达力与可控性上带来一次大幅跃升。
这款名为 Fish Audio S2 的模型主打强力的情绪可控性。用户可用自然语言指令精细调节韵律与情感,例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心) 等标签,也支持更自由的描述如 [professional broadcast tone](专业播音腔) 或 [pitch up](升高音调),在词级或短语级实现精准控制,生成自然生动、表现力十足的语音。
核心看点包括:
- 彻底开源:模型权重、微调代码以及基于 SGLang 的流式推理引擎全部开放(可在 GitHub 与 Hugging Face 获取),S2-Pro 为旗舰版本(约 44 亿参数)。
- 极低时延:推理延迟低于 150 毫秒,适合对话机器人、虚拟主播等实时应用场景。
- 原生多说话人:单次推理即可处理多位说话者,支持对话轮转、打断、自然情绪传递与音色一致性,无需额外处理。
据 Fish Audio 介绍,S2 基于约 1000 万小时、覆盖近 50 种语言的音频数据训练,并结合强化学习对齐与双自回归架构。在多项基准测试中展现出领先的自然度与表现力,被认为是当前开源与闭源 TTS 中情感智能最强的系统之一。Fish Audio 用一句话概括:“真正的语言自由,从现在开始。” 这意味着,从机械朗读迈向真正富有情感与个性的 AI 语音时代已经到来。
GitHub:https://github.com/fishaudio/fish-speech/
HuggingFace:https://huggingface.co/fishaudio/s2-pro/
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?