Lyra 是谷歌去年开源的低比特率语音编解码器,与开放的 AV1 编解码器相结合,可以在 56kbps 的连接上实现语音聊天。Lyra 利用机器学习和其他技术来实现可在 3kbps 下运行的极低比特率语音压缩。
谷歌去年正式开源 Lyra,近日宣布推出 Lyra V2。与 V1 相比,Lyra V2 采用了新架构、支持更多平台、提供可扩展的比特率、具有更好的性能,可生成质量更高的音频。
- 采用新架构
Lyra V2 基于称为 SoundStream 的端到端神经音频编解码器。该架构在传输通道之前和之后都有一个残差矢量量化器 (RVQ),它将编码信息量化为比特流并在解码器端对其进行重构。
- 提供更好的性能
新架构使延迟从之前版本的 100ms 减少到 20ms。在这方面,Lyra V2 可与目前使用最广泛的音频编解码器Opus for WebRTC 相媲美,其典型延迟分别为 26.5ms、46.5ms 和 66.5ms。
Lyra V2 的编码和解码速度也比以前的版本快五倍。在 Pixel 6 Pro 手机上,Lyra V2 需要 0.57ms 来编码和解码 20ms 的音频帧,比实时快 35 倍。降低的复杂性意味着比 V1 更多的手机可以实时运行 Lyra V2,从而降低了整体电池消耗。
- 生成质量更高的音频
在多年来机器学习研究的推动下,生成的音频质量也得到了提高。听力测试表明,Lyra V2 在 3.2 kbps、6 kbps 和 9.2 kbps 的音频质量(以MUSHRA
分数衡量,表示主观质量)分别以 10 kbps、13 kbps 和 14 kbps 的速度达到 Opus。
点此查看具体的音频质量对比。
Lyra V2 继续提供 Lyra V1 中已有的内容(构建工具、测试框架、C++ 编码和解码 API、信号处理工具链和示例 Android 应用程序)。使用过 Lyra V1 API 的开发者会发现 V2 API 看起来很熟悉,当然也有一些变化。例如,现在可以在编码期间更改比特率。此外,模型定义和权重包含在 .tflite 文件中。与 V1 一样,此版本是 beta 版本,预计 API 和比特流会发生变化。
发布公告 | Release Note
还没有评论,来说两句吧...