生成式建模是人工智能的基础范式之一。随着概率建模方法的发展和模型规模的增长,以自回归模型、扩散概率模型为代表的生成式人工智能在文本、视觉、语音、跨模态等重要领域取得了一系列进展。本期ADL对生成式人工智能的基础理论和前沿应用进行系统性介绍。
CCF学科前沿讲习班
CCF学科前沿讲习班
The CCF Advanced Disciplines Lectures
CCFADL第134期
主题 生成式人工智能基础理论与前沿应用
2023年11月24日-26日 北京
本期CCF学科前沿讲习班《生成式人工智能基础理论与前沿应用》对生成式人工智能的基本理论与方法,以及其在图像、图文跨模态、三维内容、视频、语音等方面的前沿进展进行系统性介绍,帮助学员理解生成式人工智能的基本概念、理论基础和算法,并展示生成式人工智能在多个领域的前沿应用,激发学员兴趣,开阔科研视野,增强专业知识与实践能力。
本期ADL讲习班邀请到了本领域7位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对基于生成式人工智能基础理论与前沿应用进行深入浅出的讲解,为听众介绍扩散概率模型等前沿方法的理论与算法基础,并介绍解决多个人工智能相关重要领域的最前沿进展。
学术主任:朱军 清华大学;李崇轩 中国人民大学
主办单位:中国计算机学会
活动日程:
2023年11月24日(周五) | |
9:00-9:15 | 开班仪式 |
9:15-9:30 | 全体合影 |
9:30-12:30 | 专题讲座1:扩散概率模型及其应用 |
朱军,清华大学计算机系,Bosch AI教授 | |
12:30-13:30 | 午休 |
13:30-16:30 | 专题讲座2: |
Visual Content Creation: Representations and Paradigms | |
沈宇军,蚂蚁技术研究院高级科学家 | |
2023年11月25日(周六) | |
9:00-12:00 | 专题讲座3:扩散模型与语音及音效合成 |
陈泽华,清华大学计算机系,水木学者博士后 | |
12:00-13:00 | 午休 |
13:30-16:00 | 专题讲座4:三维内容生成 |
Part1:3D AIGC基础与前沿进展 | |
刘烨斌,清华大学自动化系,长聘正教授 | |
Part2:数字角色动作的表达与生成 | |
刘利斌,北京大学智能学院,助理教授 | |
2023年11月26日(周日) | |
9:00-12:00 | 专题讲座5:视频扩散模型综述 |
Mike Z. Shou,新加坡国立大学,助理教授 | |
12:00-13:00 | 午休 |
13:00-16:00 | 专题讲座6:跨模态生成式人工智能 |
段楠博士,微软亚洲研究院资深首席研究员 |
本期 ADL主题《生成式人工智能基础理论与前沿应用》,由清华大学计算机系Bosch AI教授、清华大学人工智能研究院副院长朱军、中国人民大学高瓴人工智能学院副教授李崇轩担任学术主任,邀请到朱军(Bosch AI教授,清华大学)、沈宇军(蚂蚁技术研究院高级科学家)、段楠(微软亚洲研究院资深首席研究员)、刘烨斌(长聘正教授,清华大学自动化系)、刘利斌(助理教授,北京大学智能学院)、Mike Z. Shou(助理教授,新加坡国立大学)、陈泽华(水木学者博士后,清华大学计算机系)7 位专家做专题讲座。
特邀嘉宾 (以姓氏拼音为序):
陈泽华
清华大学计算机系水木学者博士后
嘉宾简介:陈泽华,清华大学计算机系博士后,水木学者,于英国帝国理工学院电气与电子工程系获博士学位、国防科学技术大学获本科与硕士学位。主要研究方向为概率生成模型,语音合成,生物电信号处理。曾在微软、京东人工智能研究院、TikTok等科技公司科研实习,在机器学习和语音领域重要国际会议ICML、NeurIPS、ICASSP等发表多篇论文,其中AudioLDM (ICML 2023) 已获近百次引用,GitHub stars超过2千次。
报告题目:扩散模型与语音及音效合成
报告摘要:目前,扩散模型在语音及音效合成领域已逐渐成为数据生成的核心模块。若干加速采样、可控生成的技术也围绕扩散模型被开发。近期,扩散模型“噪声到数据”的概率生成框架,也已逐渐拓展到“数据到数据”。本次报告会介绍扩散模型及其拓展模型,在语音及音效合成方向的前沿进展。
段楠
微软亚洲研究院资深首席研究员
嘉宾简介:段楠,博士,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态智能、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项,个人主页:https://nanduan.github.io/。
报告题目:跨模态生成式人工智能
报告摘要:本报告将从四个方面介绍生成式大模型的发展趋势,包括:(1)大语言模型(LLM),主要用于完成从文本输入到文本输出的任务。在这一部分我们将回顾大模型及其具备的涌现能力,并介绍基于 LLM 的生成增强技术,包括基于检索增强的生成算法、基于自洽的生成算法、基于验证机制的生成算法等;(2)多模态大语言模型(MLLM),主要用于完成从多模态输入到文本输出的任务。在这一部分我们将介绍 MLLM 的主要训练方法;(3)多模态生成式 AI,主要用于完成从多模态输入到多模态输出的任务。在这一部分我们首先以 MSRA 的女娲项目为例,系统介绍从语言到视觉内容的生成模型和算法,并进一步介绍多模态生成式 AI 在构建通用人工智能中的意义以及最新的工作;(4)AI 智能体,主要用于完成从多模态输入到动作输出的任务。在这一部分我们将对 AI 智能体的主要模块进行介绍,包括任务规划和动作预测模块、世界模型、记忆模块、外部工具选择和整合模块等。在本报告的最后,我们将讨论未来可能的研究方向。
刘利斌
北京大学智能学院助理教授
嘉宾简介:博士毕业于清华大学,后曾于加拿大不列颠哥伦比亚大学(The University of British Columbia)及美国迪士尼研究院(Disney Research)进行博士后研究,以及美国硅谷创业公司DeepMotion Inc.担任首席科学家。主要研究方向是计算机图形学,特别是数字人建模与动画、物理仿真、运动控制以及相关的优化控制、机器学习、增强学习等领域。他曾获得 SIGGRAPH Asia 2022 Best Paper Award、SIGGRAPH 2023 Honorable Mention Award 等奖项,并多次担任图形学领域重要国际会议如SIGGRAPH (North America/Asia)、EG、PG、SCA等的论文程序委员,以及图形学领域主要会议和期刊的审稿人。
报告题目:数字角色动作的表达与生成
报告摘要:交互式的数字人形象是虚拟现实应用中不可或缺的一部分,而真实自然的动作和行为方式对于真实的数字人来说也是至关重要的。近年来,利用AIGC技术实现更真实的交互式数字人一直是研究的热点领域,它有助于解决传统数字人动画常见的重复、呆板、交互性不足等问题。与AIGC的其他领域相似,AIG-Animation需要解决两个主要问题:如何高效地表达复杂的动作,以及如何有效地控制动作的生成。本次报告将围绕这两个问题,简要介绍数字人动画生成领域的最新进展,特别是基于离散表示和物理约束的动作表达,以及结合多模态信息和大型语言模型的动作生成方法。
刘烨斌
清华大学自动化系,长聘教授
嘉宾简介:刘烨斌,清华大学长聘教授,国家杰青基金获得者。研究方向为三维视觉、数字人重建、生成与交互。发表TPAMI/ SIGGRAPH/CVPR/ICCV等论文近80余篇。多次担任CVPR、ICCV、ECCV领域主席,SIGGRAPH Asia技术委员会委员,担任IEEE TVCG、CGF编委。任中国图象图形学会三维视觉专委会副主任。获2012年国家技术发明一等奖(排名3),2019年中国电子学会技术发明一等奖(排名1)。
报告题目:3D AIGC基础与前沿进展
报告摘要:随着图象生成大模型如Stable Diffusion和Midjourney在图象生成可控性和质量上的飞跃,三维对象生成3D-AIGC逐渐形成当前三维视觉和计算机图形学的热点,出现了如DreamFusion, Magic3D, Fantasic3D, ProlificDreamer等通过图象SD获得三维生成的工作。本报告将从三维生成的基础表达开始介绍,包括神经辐射场(NeRF)、隐式距离场、可微网格模型(DMTet)、高斯点云(Gaussian Splatting),结合Diffusion方法,介绍上述典型的三维对象生成方法。同时,围绕如何实现快速、高质、鲁棒的3D AIGC方法,介绍近几个月来新出现的3D-AIGC方法,如Zero-123, MVDreamer, DreamCraft3D。最后,针对人体三维对象的生成,介绍包括HumanNorm,AvatarRex等针对人头人体静态动态及化身生成的各类方法。
Mike Z. Shou
新加坡国立大学助理教授
嘉宾简介:Mike Shou是新加坡国立大学助理教授、博导,创立Show Lab。他带领团队开发了Tune-A-Video,Show-1等视频生成模型。他曾获CVPR'22最佳论文finalist, CVPR'17最佳学生论文提名,在多项国际比赛中获得第一名。他受邀担任一流学术会议如CVPR,ECCV,ACM Multimedia等的领域主席。他当选新加坡国家科研基金委Fellow,入选福布斯30 Under 30亚洲区精英榜。
报告题目:视频扩散模型综述
报告摘要:2022年来,视频扩散模型的发展,大大提升了视频AI生成的效果。本讲座将先回顾扩散模型的基础和经典的文生图扩散模型。然后,我们将具体介绍,视频扩散基础大模型,包括闭源的如Make-A-Video,Imagen-Video等,和开源的如Show-1等;同时我们将介绍相关数据集和评估指标。接着,本讲座将重点介绍,基于视频扩散基础模型,如何进行视频编辑,基础方式的如Tune-A-Video,MotionDirector等,以及基于控制点的方式和3D-aware的方式等。最后,我们将介绍其他额外输入条件,如Image-to-Video,Control Video等等。
沈宇军
蚂蚁技术研究院高级科学家
嘉宾简介:沈宇军,现任蚂蚁技术研究院高级科学家,负责交互智能实验室计算机视觉领域的研究工作,主要研究方向为生成模型和三维视觉。
报告题目:Visual Content Creation: Representations and Paradigms
报告摘要:Visual content creation includes a wide range of vision tasks, such as text-to-image generation, photo animation, novel view synthesis, digital avatar creation, etc. The past few years have witnessed the bloom of this area with diverse task settings and pipelines. Despite all these successful attempts, there seems to be many trade-offs, like the one between visual quality and controllability and the one between reconstruction fidelity and rendering efficiency. Such trade-offs also become the central issues when one opts for a data representation or a learning paradigm. It is noteworthy that elegant solutions usually begin with figuring out the best choice.
朱军
清华大学计算机系,Bosch AI教授
嘉宾简介:朱军,清华大学计算机系Bosch AI教授、IEEE Fellow、清华大学人工智能研究院副院长,曾任卡内基梅隆大学兼职教授。2001-2009年获清华大学学士和博士学位,主要从事机器学习研究,担任国际著名期刊IEEE TPAMI的副主编,担任ICML、NeurIPS、ICLR等资深领域主席和最佳论文评审委员20余次。获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等,入选CCF青年科学家、MIT TR35中国先锋者等。指导的多位博士生获得CCF优秀博士论文、中国人工智能学会优秀博士论文、清华大学特等奖学金等。
报告题目:扩散概率模型及其应用
报告摘要:近年来,深度生成模型的技术和应用进展迅速,能够有效刻画图像、文本、视频、音频等复杂数据的分布,有效实现数据生成、小样本学习等。扩散概率模型是其中一类性能良好的模型。该报告将介绍扩散概率模型的基本原理、关键算法以及大规模的多模态基础模型,并结合图像、3D生成等任务,简要介绍相关的应用。
学术主任
朱军
清华大学计算机系,Bosch AI教授
朱军,清华大学计算机系Bosch AI教授、IEEE Fellow、清华大学人工智能研究院副院长,曾任卡内基梅隆大学兼职教授。2001-2009年获清华大学学士和博士学位,主要从事机器学习研究,担任国际著名期刊IEEE TPAMI的副主编,担任ICML、NeurIPS、ICLR等资深领域主席和最佳论文评审委员20余次。获中国科协求是杰出青年奖、科学探索奖、中国计算机学会自然科学一等奖、吴文俊人工智能自然科学一等奖、ICLR国际会议杰出论文奖等,入选CCF青年科学家、MIT TR35中国先锋者等。指导的多位博士生获得CCF优秀博士论文、中国人工智能学会优秀博士论文、清华大学特等奖学金等。
李崇轩
中国人民大学,高瓴人工智能学院副教授
李崇轩,中国人民大学,高瓴人工智能学院副教授,博士生导师,2010-2019年获清华大学学士和博士学位。主要研究方向为深度概率学习,在机器学习领域重要国际会议、期刊ICML、NeurIPS、ICLR、TPAMI 等发表论文40余篇,其中Analytic-DPM获ICLR 杰出论文奖、DPM-Solver入选Paper Digest NeurIPS 2022最具影响力论文,并作为核心采样技术部署于DALL·E 2、Stable Diffusion等。获CAAI吴文俊人工智能优秀青年奖,ACM SIGAI China新星奖,CCF优秀博士学位论文奖,CAAI吴文俊人工智能自然科学奖一等奖,入选中国博士后创新人才支持计划、北京市科技新星等。主持、参与多项国家自然科学基金、科技部课题。担任ICLR 2024领域主席。
时间:2023年11月24日-26日
地址:北京•中科院计算所一层报告厅(北京市海淀区中关村科学院南路6号)
报名须知:
1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。应部分学员的要求,本期ADL线上同步举办,线上线下报名注册费用相同。线上会议室号和密码将在会前3天通过邮件发送。
2、报名截止日期:11月22日。报名请预留不会拦截外部邮件的邮箱,如qq邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。
3、咨询邮箱 : adl@ccf.org.cn
缴费方式:
在报名系统中在线缴费或者通过银行转账:
银行转账(支持网银、支付宝):
开户行:招商银行股份有限公司北京海淀科技金融支行
户名:中国计算机学会
账号:110943026510701
公对公银行转账,请务必注明:ADL134+姓名
报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。
报名方式:
请选择以下两种方式之一报名:
1、扫描(识别)以下二维码报名:
2、复制以下链接到浏览器,搜索到报名页面,点击“立即报名”进行报名:
https://conf.ccf.org.cn/ADL134
点击“阅读原文”,立即报名。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...