直播预约｜ByteDance AI Luminary Talks：世界模型探索

欢迎加入字节跳动 7 月 19 日举办的 AI 技术菁英论坛（ByteDance AI Luminary Talks），共同探讨“世界模型探索：视频和 3D 生成与理解模型”的相关话题和最新的技术进展。本次活动将配有中文同声传译，并将在豆包大模型团队、机器之心、量子位、字节跳动技术团队、稀土掘金和 InfoQ 的微信视频号上同步直播，欢迎扫描图中二维码预约，周五下午 4:00-8:30 我们不见不散！

预约直播

详细日程

3:30-4:00 PM 签到入场

4:00-4:10 PM 欢迎致辞

冯佳时，字节跳动豆包大模型视觉基础研究团队负责人

4:10-4:30 PM

多模态生成式 AI 与基础模型

刘子纬（Ziwei Liu），南洋理工大学计算与数据科学学院助理教授

演讲摘要

在更广泛的现实世界的应用中生成逼真且可控的视觉内容一直是人工智能（AI）长期追求的目标。它也是具身智能的核心。在本次演讲中，我将讨论我们在 AI 驱动的人类、物体和场景的视觉上下文生成方面的工作，重点是结合神经渲染的强大功能与大型多模态基础模型。我们的生成式 AI 框架已在广泛的任务上展示了其有效性和泛化能力。

4:30-5:00 PM

Depth Anything: 单目深度估计的基础模型

Bingyi Kang, TikTok 研究科学家

演讲摘要

Depth Aything 提出了一种单目深度估计技术，能更有效地从 2D 图像中识别出深度信息图。基于这些深度信息图，普通的 2D 影像便可转化为 3D 影像。相比此前已有技术，DepthAnything 在提升深度图的质量方面取得重大突破。此技术的应用将使得 TikTok 平台上现有的海量 2D 影像能够轻松转化为 3D 影像，让普通手机拍摄的 2D 影像“一键转 3D”，或将大幅推进 XR 产业的发展。

5:00-5:30 PM

Magic-Boost: 通过多视图条件扩散提升 3D 生成

张健锋，字节跳动研究科学家

演讲摘要

得益于二维扩散模型的快速发展，近期三维内容创作取得了显著进展。一个有前景的解决方案是利用预训练的二维扩散模型来生成多视角图像，然后将这些图像转化为精确的三维模型。然而，由于存在一定的不一致性，这类方法生成的结果仍然缺乏复杂的纹理和几何结构。为了解决这个问题，我们提出了 Magic-Boost，这是一个多视角条件扩散模型，它能够通过短暂的优化期（约 15 分钟）显著改善粗糙的生成结果。与之前的方法相比，Magic-Boost 展现出了强大的能力，能从伪合成的多视角图像中生成高度一致的图像。它提供了精确的指导，与输入图像的身份对齐，从而丰富了初始生成结果的局部几何和纹理细节。

5:30-6:40 PM 晚餐 & 交流

6:40-7:10 PM

多模态视频理解与生成

寿政（Mike Shou Zheng），新加坡国立大学助理教授

演讲摘要

在这次演讲中，我将介绍我们在视频理解和生成方面的最新研究，并分享我对未来发展的思考。在理解方面，我将介绍多智能体系统 AssistGUI，它通过学习教学视频就可以在桌面上自动化完成复杂的图形用户界面（GUI）任务。为了构建以视觉为中心的多模态大型语言模型（MLLMs），我们开发了 VisInContext，它将文本标记转换为视觉标记，显著增加了 MLLMs 的上下文长度和效率。对于视频生成的逆问题，我将介绍我们在长视频生成方面的工作 MagicAnimate，MagicAnimate 在人类图像动画方面表现出色，具有改进的时间一致性和保真度。

7:10-7:40 PM

连续高动态的长视频生成方案探索

周大权，字节跳动研究科学家

演讲摘要

生成真实、连续、大幅度的长视频目前仍为业界存在的挑战性问题。本报告从数据集生成，视频生成模型算法设计以及计算开销三个角度，探讨如何设计高效，时序连续并且具备完整故事表达能力的视频生成架构。

7:40-8:10 PM

InstaDrag: 从视频数据中学习快且精准的拖拽式编辑

廖俊豪（Liew Jun Hao），字节跳动研究科学家

演讲摘要

近年来，基于生成模型的图像编辑方法收到了广泛的关注。然而，大多现有方法缺乏进行精细空间控制的能力。本报告提出 InstaDrag，一种能在～1 秒内完成高质量拖拽式编辑的图像编辑方案，并探讨如何利用自然视频中丰富的运动信息去学习拖拽式编辑。

8:10-8:30 PM 合影 + 交流

点击下方【预约】，获取开播提示