豆包大模型视觉、语音能力升级！文生图更懂国风，TTS拿捏情绪

2024 火山引擎 AI 创新巡展・成都站于近日正式举办。活动现场发布了豆包・图生图模型，以及升级版的豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。

本文介绍了升级版文生图、语音合成、声音复刻模型特征，包括图像生成方面更深刻理解主客体关系、空间构造等特点，语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。

日均 tokens 使用量突破 5000 亿——近日，2024 火山引擎 AI 创新巡展・成都站上，豆包大模型最新进展对外公布。一同发布的，还有豆包・图生图模型，以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。

今年 5 月，字节跳动发布豆包大模型家族。据后续第三方 FlagEval 大模型评测平台发布的榜单显示，豆包大模型（Doubao-Pro-4k）在闭源大模型的“客观评测”中，以综合评分 75.96 分排名第二，仅次于 GPT-4 ，是得分最高的国产大模型。在“主观评测”中，豆包大模型同样排名第二。

2 个多月过去，平均每家企业客户日均大模型 tokens 使用量较发布时增长了 22 倍。爆发式增长的背后，也是豆包大模型模型能力和应用效果受到认可的体现。

豆包大模型团队为本次发布的主要能力提供了技术支持，本文将介绍这些主要能力细节，解读背后涉及的技术内核。

1.更懂“国风”的文生图模型

本次文生图模型升级能力体现在三个方面：

其一，新一代模型能够深度理解复杂 prompt ，包括多主体、反现实、主客体关系等内容，图文匹配更精准。

其二，模型也更善于从光影明暗、氛围色彩和人物美感三个方向提升画面质感。

其三，强化中国特色内容，能够对中国元素，包括中国人物、物品、朝代、地理、美食、节日等精准理解。

团队认为，此次发布模型的“中国风”生成能力是最大亮点。我们使用了原生双语 LLM + 数据，实现了精准的中国元素生成。

为使模型实现能力提升，团队进行了多方面准备。

在数据上，团队持续加强数据 Re-caption 能力，对数据进行精确打标以实现对数据质量更高把控。面向大批量数据进行管理和处理，团队还对训练集群稳定性也进行了优化。

文本理解模块，团队采用原生双语大语言模型作为文本编码器，显著提升对中文的理解能力。它能拥有更广泛的世界知识并对不同语言已经形成基础认知，换而言之，无论面对中文特色用语，还是英语俚语，语言模型都能提供更准确的 Text Embedding ，让模型能够精准的学习原始的文化元素。

部署推理方面，团队使用蒸馏方式，解决模型推理耗时问题，以实现在更低部署环境下，完成高质量的图片生成。从数据上看，他们将原有模型生成图像步数简化，消耗时长压缩到原有 40%。

最后，团队还规划了更全面、准确的维度以评价图片生成质量，其中包括：结构准确度、画质、图像美感、图文一致性、内容创造、复杂度适应性等。即便是同维度中，团队还会通过主体准确性、多主体准确性、动作数量等维度对生成效果进行评价。

除却文生图模型，本次发布还包含图生图模型，不仅能高度保留原图的人物轮廓、表情、空间结构等多维特征，还支持 50 余种不同风格，支持图片扩展、局部重绘和涂抹玩法，让图片进行创意延展。现已应用于抖音、剪映、豆包、星绘等应用，并已服务于三星、努比亚等企业，涵盖了手机相册、工具助手、电商营销、广告投放等多个领域。

2.让数据自己“说话”的语音基座模型

语音同样是本次发布重点，包括升级版豆包・语音合成模型和豆包・声音复刻模型。

其中，语音合成模型能深度理解故事情节和人物角色，正确表达情绪，还能保留吞音、口音等发音习惯，媲美真人音色，让发声更自然。团队针对 26 个精品音色进行了更精细的把控，以支持各种细分场景下专业主播需求，落地方向包括现场主持、播音、直播等场景。

与之相对，豆包・声音复刻模型则支持 5 秒复制高保真音色，高度还原说话人声音特征和口音，支持跨 6 大语种迁移，发音更接近于当地人表达。这一模型面向于“学习任一角色声音”，复刻能力更好，甚至连说话人的口癖好也能学习到。

注：声音复刻“太白金星”效果展示

上述两个模型的底层技术，都关联。

这是一个语音生成基座模型。与传统 TTS 面向单一任务不同，Seed-TTS 能够建模各种声音，且允许同时从很多个维度进行操控，比如方言，真人口癖，甚至吞字这类语音上的瑕疵。

至于大模型如何学习“吞音”、“口音”、“口癖”的原理，团队认为，传统的 TTS 使用特定建模，针对模型框架、模型时长、能量分布、音调分布进行设计，注入了人类的先验性，没能很好反映数据特征。但大模型能“让数据自己说话”。

本身大模型就拥有建模并提取大数据特征的能力，使得语音特征得以保留，再加上 RL 、数据增强、更好的文本标注、文本表征，强化了特定层面的表现。

比如“哈哈”二字，在不同语境有截然不同的意思和表达方式，Seed-TTS 可以通过上下文理解不同场景的意思，以学习到不同场景的对应表达方式。同理，TTS 模型也能实现深度理解故事情节和人物角色，正确表达情绪。

注：语音合成中更多情绪表达展示

，时

具体实现方面，Seed-TTS 针对语言模型系统，主要解决了语音的 tokenize 和稳定性问题。

目前市面上，连续和离散的 tokenizer 都有，团队通过研究探索发现，token 包含信息的设计，对整个模型各方面表现及稳定性有非常关键的影响，这既包括 token 的信息、帧率等，也包括如何 tokenize ，以及如何将其再变回声音。

语言模型稳定性方面，团队在 token ，模型设计，解码策略，数据准备上进行了多方面的探索，真正做到了工业及应用的要求。

对于纯 Diffusion 系统，由于去掉了额外的时长模型，其难点同样集中在稳定性上。经过多方的尝试，团队在该链路也实现了很好指标。

研究工作外，为支持本次升级发布，豆包大模型语音团队还在算法层面进行迭代，包括增加可控性、表现力和稳定性。在工程上，团队参与降低了运算量，还与工程同学一起 Debug ，确保实际效果和 Demo 一致。

3.团队持续关注并致力于解决大模型底层问题

回顾语音大模型领域发展，团队认为，传统 TTS 、ASR 等任务研究彼此分隔，落地到不同领域和场景中也相应要做适配和调整，随着大模型浪潮来临，各种任务从底层融合，才是大势所趋。

过去的研究显示，人脑学习语言和发音是通过经验和不断模仿，这一过程中，“听”与“说”两者同等重要，对机器也一样。

如果说 TTS 模型是机器的“嘴巴”，那 ASR 模型则对应“耳朵”，一个掌管发声，一个负责听见及理解，但两者的内核都依赖于对声音和文本信息的特征提取。

与之对应，豆包大模型团队在语音方向已经先后公布了 Seed-TTS、Seed-ASR 两个模型。其中，Seed-ASR 技术报告近期才对外披露，它能利用 LLM 丰富的知识，整体提升 ASR 识别结果的准确性，在多个领域、多种语言、方言、口音综合评估集上，Seed-ASR 比其他端到端模型表现出显著改进。目前，相关技术也已集成到豆包・语音识别模型中。

关于 TTS 模型和 ASR 模型的融合探索工作，团队已在进行中。

至于文生图方面的展望，豆包大模型视觉团队认为，Stable Diffusion 发布至今已过去 2 年，业内有很多新技术和插件涌现，比如 LoRA 、ControlNet 、Adapter ，也有 DiT 架构和更为强大的语言模型。团队透露，基于 DiT 架构的文生图 2.0 版本即将上线，新版本将比当前模型生成效果高 40% ，图文一致性和美感也有大幅提升。

同时，文生图领域目前仍有一些底层问题没有很好地被解决，也将是团队未来努力的方向。

一方面，模型对事件的理解能力需要进一步提升，具体来说，图文匹配能力，是文生图技术发展的核心。

另一方面，文生图需要更好的可控编辑生成能力，即便 ControlNet、Adapter，目前仍有缺陷，该问题的解决能为应用落地带来更广阔可能性。

最后是社会责任问题，文生图模型需要从公平性、安全性、消除偏见等方面进一步提升，以对社会公众更负责。

从文生图的 DiT 架构升级，到语音模型的“ All-in-One ”，我们希望持续吸引目标远大、有志于“用科技改变世界”的优秀人才加入团队，贡献创新性想法，并一同参与这些底层问题的解决与突破中。

豆包大模型团队持续热招中，欢迎点击阅读原文，了解团队招聘相关信息。

点击“阅读原文”，了解团队招聘信息！