开源语音模型 Maya1 发布：实时、可控且更具表现力的文本转语音-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

Maya Research 近期推出了 Maya1，这是一款拥有 30 亿参数的文本转语音模型。它能把文字与简短的声音描述转成可控、富有表现力的语音，并可在单张 GPU 上进行实时生成。Maya1 的关键优势在于对真实人类情绪的捕捉以及精准的声音塑造。

Maya1 的使用方式包含两个输入：用自然语言描述你想要的声音，以及需要朗读的文本。例如，可以输入“二十多岁女性，英式口音，活力十足，发音清晰”，或“恶魔角色，男声，低沉，沙哑，慢速”。模型会综合文本内容与风格描述，生成与之匹配的音频。你还可以在文本里插入情感标记，如 < 笑 >、< 叹气 >、< 低语 > 等，内置超过 20 种情感可选。

Maya1 输出为 24kHz 单声道音频，并支持实时流式播放，适用于助手、互动代理、游戏、播客和直播等场景。Maya Research 团队表示，模型表现优于不少顶级的闭源系统，同时完全开源，遵循 Apache 2.0 许可证。

在技术架构上，Maya1 采用仅解码器的 Transformer，设计与 Llama 相近。它不直接生成原始波形，而是预测名为 SNAC 的神经音频编码器的码流。完整的生成流程包括文本解析、编码生成与音频解码，既提高效率，又便于扩展。

数据层面，Maya1 先在互联网规模的英文语音语料上训练，覆盖广泛的声学特征与自然连贯性；随后在精心挑选的私有数据集上进行微调，该数据含有人为审核的声音描述与丰富的情感标签。

为在单卡上推理与部署，官方建议使用显存 16GB 及以上的 GPU，如 A100、H100 或 RTX 4090。Maya Research 也提供多种工具与脚本，便于实时音频生成与流式传输。

huggingface:https://huggingface.co/spaces/maya-research/maya1

划重点:

🎤 30 亿参数的开源 TTS 模型 Maya1，支持实时生成且表现力强。

💡 结合声音描述与朗读文本，支持多种情感标签，语音更生动。

🚀 单个 GPU 即可运行，并配套工具与脚本，助力高效推理和部署。

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

每日资讯

开源语音模型 Maya1 发布：实时、可控且更具表现力的文本转语音

剪映助手-剪辑小助手使用教程

绘想 – 百度推出的AI视频生成平台

拍我AI – PixVerse国内版AI视频生成平台

度加创作工具 – 百度推出的一站式AIGC创作平台

AI日报生成

码上飞 – 对话式的AI智能软件开发平台