情感表达全面解放!Fish Audio 推出 S2:多说话人、词级情绪操控、全量开源

Fish Audio 正式推出全新一代文本转语音(TTS)模型 S2,为开源 TTS 在表达力与可控性上带来一次大幅跃升。

这款名为 Fish Audio S2 的模型主打强力的情绪可控性。用户可用自然语言指令精细调节韵律与情感,例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心) 等标签,也支持更自由的描述如 [professional broadcast tone](专业播音腔) 或 [pitch up](升高音调),在词级或短语级实现精准控制,生成自然生动、表现力十足的语音。

核心看点包括:

  • 彻底开源:模型权重、微调代码以及基于 SGLang 的流式推理引擎全部开放(可在 GitHub 与 Hugging Face 获取),S2-Pro 为旗舰版本(约 44 亿参数)。
  • 极低时延:推理延迟低于 150 毫秒,适合对话机器人、虚拟主播等实时应用场景。
  • 原生多说话人:单次推理即可处理多位说话者,支持对话轮转、打断、自然情绪传递与音色一致性,无需额外处理。

据 Fish Audio 介绍,S2 基于约 1000 万小时、覆盖近 50 种语言的音频数据训练,并结合强化学习对齐与双自回归架构。在多项基准测试中展现出领先的自然度与表现力,被认为是当前开源与闭源 TTS 中情感智能最强的系统之一。Fish Audio 用一句话概括:“真正的语言自由,从现在开始。” 这意味着,从机械朗读迈向真正富有情感与个性的 AI 语音时代已经到来。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享