cckuailong
读完需要
速读仅需 1 分钟
1
Text2Listen:让大语言模型能听懂人话,并做出合适的面部表情和动作
简单来说,就是当你和聊天机器人聊天时,它能根据你说的话来做出相应的笑脸、皱眉等反应,让对话更加自然和真实。
该项目提出了一个框架,用于根据说话者的话生成适当的面部反应。它使用一系列听众的面部手势,通过 VQ-VAE 进行量化,并将这些手势作为额外的语言标记输入到基于变换器的大型语言模型中。生成的听众动作是流畅的,并反映了语言语义。
项目演示:https://people.eecs.berkeley.edu/~evonne_ng/projects/text2listen/
论文:https://arxiv.org/abs/2308.10897
源码:https://github.com/sanjayss34/lm-listener
2
好文推荐:33 年前和 33 年后的深度神经网络
Karpathy 在 2022 年写的一篇博客,他闲暇时候复现了 33 年前的一篇关于手写数字识别的经典论文。里面有些对机器学习过去和未来的思考值得我们去学习。
作为 2022 年时间旅行者研究 1989 年深度学习技术,我们发现宏观层面上的技术并未发生显著变化,但数据集和模型规模有了巨大增长。现代技术使得训练速度大幅提升,同时通过调整模型、损失函数、增强和优化方法,错误率得以降低。然而,要进一步提高性能,我们需要扩大计算基础设施并投入研发。从 2055 年时间旅行者的角度来看,我们现在的数据集和模型规模相对较小,未来可能会有更大的发展。
原博客:https://karpathy.github.io/2022/03/14/lecun1989/
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...