太恐怖了，这些声音竟然都是 AI 生成的！

这是「进击的Coder」的第 826 篇技术分享

作者：小 G

来源：GitHubDaily

“

阅读本文大概需要 5 分钟。

”

自人工智能技术被广泛应用以来，语音合成、转化、克隆，一直是颇为热门的研究领域。强如谷歌、微软也在很久前便推出了自己的 Text-to-Speach（文本转语音）服务。

此前我用的比较多，使用体验上比较好的是微软的 Azure，它生成的文本听起来几乎跟真人无异。

美中不足的是，经过它自动转化的语音，里面一些人类情感的表现并不是太好，你需要通过它的 SSML 标记对语音进行调整。

原本我以为根据文本来完美复刻人声，这项技术还要再等待一年才能成熟，毕竟结合 GPT-4 的能力，微软现在是绝对有实力实现这一技术的。

直到我今天在 GitHub 上看到这么一个项目，才不禁感受到当下时代，AI 技术进展到底有多快。

这个项目叫 Bark ，仅用了短短一天时间，便顺利冲上 GitHub 榜单，拿下第一的宝座。

GitHub：https://github.com/suno-ai/bark

它的神奇之处，在于能够生成高度逼真的语音（支持多个语种）以及其他音频。

众所周知，人类声音的情感表达，往往能够直接反映出它的喜怒哀乐，这些声音自然也包括多种非正常的语言交流，如大笑、叹息和哭泣等。

AI 通过文本生成的声音，到底能有多逼真，这里我先放一段示例让大家感受下。

思考与大笑：

说悄悄话：

这些音频包括音乐、背景噪音和一些简单的音效。是的，你没听错，你甚至可以拿它来生成音乐。

Bark 可以生成所有类型的音频，并且基本上看不出语音和音乐之间的区别。

有时， Bark 也会有选择性的将文本转为音乐。如果你想让它实时转换，可以直接在文字中，内嵌音符 ♪ 来触发这一操作。

比如，当你给它这样一段 Prompt 时：

text_prompt = """
    ♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

它便会生成音乐：

那么，Bark 主要支持哪些语种呢？

理论上，只要拥有足够多的高质量对齐数据，Bark 可以支持当下所有的主流人类语音，这里面自然也包括普通话，以及使用人群较多的方言。

目前，Bark 支持多种开箱即用的各种语言，项目 README 中，作者是给出了13 种语言作为参考，其中包括当下主流的英语、汉语、德语、日语、西班牙语等等。

除此之外，Bark 还能自动根据你的输入文本，自动识别并确定语言。当出现代码转换文本提示时，Bark 将尝试使用相应语言的本地口音。

总的来说，目前英语质量是最好的，但是随着该项目的迭代，我相信其他语种的水准也能很快跟上。

下一步，Bark 团队还将上线一个 Playground，你可以在上面直接免费试用和体验这项功能，不过也跟当下比较火的 AI 项目一样，需要先加入 waitlist 才能使用。

waitlist：https://3os84zs17th.typeform.com/suno-studio

我预计，在接下来一年内，随着各个大语言模型能力的进化，文本转语音技术也将变得更为成熟，AI 生成的人类声音也将越来越逼真，并达到以假乱真的效果。

如果那一天真正到来，AI 应该能替代不少播音员，以及动画、游戏、电影中声优的日常配音工作。很多先前比较依赖声音的行业，都会开始被 AI 彻底颠覆。

End

崔庆才的新书《Python3网络爬虫开发实战（第二版）》已经正式上市了！书中详细介绍了零基础用 Python 开发爬虫的各方面知识，同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容，‍同时本书已经获得 Python 之父 Guido 的推荐，目前本书正在七折促销中！

内容介绍：

扫码购买

点个在看你最好看