情感表达全面解放！Fish Audio 推出 S2：多说话人、词级情绪操控、全量开源-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Fish Audio 正式推出全新一代文本转语音（TTS）模型 S2，为开源 TTS 在表达力与可控性上带来一次大幅跃升。

这款名为 Fish Audio S2 的模型主打强力的情绪可控性。用户可用自然语言指令精细调节韵律与情感，例如在文本中插入 [laugh](笑)、[whispers](耳语)、[super happy](超级开心) 等标签，也支持更自由的描述如 [professional broadcast tone](专业播音腔) 或 [pitch up](升高音调)，在词级或短语级实现精准控制，生成自然生动、表现力十足的语音。

核心看点包括:

彻底开源：模型权重、微调代码以及基于 SGLang 的流式推理引擎全部开放（可在 GitHub 与 Hugging Face 获取），S2-Pro 为旗舰版本（约 44 亿参数）。
极低时延：推理延迟低于 150 毫秒，适合对话机器人、虚拟主播等实时应用场景。
原生多说话人：单次推理即可处理多位说话者，支持对话轮转、打断、自然情绪传递与音色一致性，无需额外处理。

据 Fish Audio 介绍，S2 基于约 1000 万小时、覆盖近 50 种语言的音频数据训练，并结合强化学习对齐与双自回归架构。在多项基准测试中展现出领先的自然度与表现力，被认为是当前开源与闭源 TTS 中情感智能最强的系统之一。Fish Audio 用一句话概括：“真正的语言自由，从现在开始。” 这意味着，从机械朗读迈向真正富有情感与个性的 AI 语音时代已经到来。

GitHub:https://github.com/fishaudio/fish-speech/

HuggingFace:https://huggingface.co/fishaudio/s2-pro/