阅读本文大概需要 5 分钟。
自人工智能技术被广泛应用以来,语音合成、转化、克隆,一直是颇为热门的研究领域。强如谷歌、微软也在很久前便推出了自己的 Text-to-Speach(文本转语音)服务。
此前我用的比较多,使用体验上比较好的是微软的 Azure,它生成的文本听起来几乎跟真人无异。
美中不足的是,经过它自动转化的语音,里面一些人类情感的表现并不是太好,你需要通过它的 SSML 标记对语音进行调整。
原本我以为根据文本来完美复刻人声,这项技术还要再等待一年才能成熟,毕竟结合 GPT-4 的能力,微软现在是绝对有实力实现这一技术的。
直到我今天在 GitHub 上看到这么一个项目,才不禁感受到当下时代,AI 技术进展到底有多快。
这个项目叫 Bark ,仅用了短短一天时间,便顺利冲上 GitHub 榜单,拿下第一的宝座。
GitHub:https://github.com/suno-ai/bark
它的神奇之处,在于能够生成高度逼真的语音(支持多个语种)以及其他音频。
众所周知,人类声音的情感表达,往往能够直接反映出它的喜怒哀乐,这些声音自然也包括多种非正常的语言交流,如大笑、叹息和哭泣等。
AI 通过文本生成的声音,到底能有多逼真,这里我先放一段示例让大家感受下。
思考与大笑:
说悄悄话:
这些音频包括音乐、背景噪音和一些简单的音效。是的,你没听错,你甚至可以拿它来生成音乐。
Bark 可以生成所有类型的音频,并且基本上看不出语音和音乐之间的区别。
有时, Bark 也会有选择性的将文本转为音乐。如果你想让它实时转换,可以直接在文字中,内嵌音符 ♪
来触发这一操作。
比如,当你给它这样一段 Prompt 时:
text_prompt = """
♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)
它便会生成音乐:
那么,Bark 主要支持哪些语种呢?
理论上,只要拥有足够多的高质量对齐数据,Bark 可以支持当下所有的主流人类语音,这里面自然也包括普通话,以及使用人群较多的方言。
目前,Bark 支持多种开箱即用的各种语言,项目 README 中,作者是给出了13 种语言作为参考,其中包括当下主流的英语、汉语、德语、日语、西班牙语等等。
除此之外,Bark 还能自动根据你的输入文本,自动识别并确定语言。当出现代码转换文本提示时,Bark 将尝试使用相应语言的本地口音。
总的来说,目前英语质量是最好的,但是随着该项目的迭代,我相信其他语种的水准也能很快跟上。
下一步,Bark 团队还将上线一个 Playground,你可以在上面直接免费试用和体验这项功能,不过也跟当下比较火的 AI 项目一样,需要先加入 waitlist 才能使用。
waitlist:https://3os84zs17th.typeform.com/suno-studio
我预计,在接下来一年内,随着各个大语言模型能力的进化,文本转语音技术也将变得更为成熟,AI 生成的人类声音也将越来越逼真,并达到以假乱真的效果。
如果那一天真正到来,AI 应该能替代不少播音员,以及动画、游戏、电影中声优的日常配音工作。很多先前比较依赖声音的行业,都会开始被 AI 彻底颠覆。
End
崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!
内容介绍:
扫码购买
点个在看你最好看

推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...