CNCC | 异构智算与云原生系统 - 新鲜讯息

CNCC2024

论坛简介：

异构智算与云原生系统

举办时间：10月26日13:30-17:30

地点：夏苑-海晏堂舞台排练厅

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

在人工智能快速演进的时代，算力已成为世界各国希望主导Al发展的战略要地。随着智能加速器和智能计算系统的蓬勃发展，异构智算平台已成为人工智能发展不可或缺的算力基础设施。如何基于异构加速器构建高效的智能计算平台，并使用云原生等技术实现对异构智算平台的高效使用成为重要研究方向。本论坛将主要讨论异构智算平台的构建、系统支持、云原生化使用方式。具体探讨的问题包括：1）异构智算平台的构建方式；2）智算平台的系统支持；3）面向异构加速器的云原生系统优化；4）智算平台与云原生的协同优化等。本论坛将从多个层面为我国的算力发展提出技术发展建议。

论坛日程

顺序	主题	主讲嘉宾	单位
1	典型省域算网调度系统构建关键技术与实践	唐卓	湖南大学
2	面向分布式大模型训练的动态张量内存管理优化	谭光明	中科院计算技术研究所
3	联想智能计算基础设施关键技术研究	蒋超	联想集团
4	低延迟可扩展的云原生计算系统设计	陈全	上海交通大学
5	面向边缘原生计算的容器快速启动研究	顾琳	华中科技大学

论坛主席及嘉宾介绍

论坛主席

张伟丰

联想集团副总裁、联想研究院智能计算实验室和无线通讯实验室负责人

简介: 曾任曦智科技首席架构师和软件副总裁，阿里云基础设施异构计算首席科学家，高通公司GPU工程总监，和人工智能基准组织MLCommons™ (MLPerf™) 董事会成员。伟丰现任国际开放计算基金会（OCP）AI co-design workgroup主席，是国际高性能芯粒和互连架构（HiPChips）会议联合创始人，并在多个国际计算机架构顶会主持该研讨会。伟丰于美国加州大学·圣地亚哥（UCSD）获得计算机博士学位。

论坛讲者

唐卓

湖南大学信息科学与工程学院院长、国家超级计算长沙中心总工程师

简介：国家杰出青年科学基金获得者，青年长江学者，政务算力网络湖南省工程研究中心主任，国家新一代人工智能公共算力开放创新平台（筹）执行主任，湖南大学先进技术协同创新研究中心常务副主任，并行与分布式计算全国重点实验室学术委员会委员。

报告题目：典型省域算网调度系统构建关键技术与实践

摘要：建立算力调度和算力需求对接平台，是提升先进算力和基础算力使用效率的必由之路，关键在于如何提升区域内主要算力中心的资源融合与协同调度能力。报告将汇报由湖南省算力资源现状，以及由工信部门建设，国家超算长沙中心承建的算力调度与综合管理平台的设计、架构和关键技术，包括多中心算力级联、多云环境下的任务协同计算与调度、算网融合与数据协同等方面的研究进展、原型系统研制、以及与省市政务云、运营商算力资源池的并网调度与应用情况。

谭光明

中科院计算技术研究所高性能计算机研究中心主任、研究员、博导

简介：参与了曙光系列高性能计算机系统研制。发表学术论文100余篇，曾任IEEE TPDS编委和多个国际会议的程序委员。曾获得国家科技进步奖二等奖、北京市科技进步奖一等奖、卢嘉锡青年人才奖和全国向上向善好青年称号。

报告题目：面向分布式大模型训练的动态张量内存管理优化

摘要：近年来，以GPT和Llama为代表的大模型在各个领域均展现出了强大的自然语言生成能力，并得了广泛的关注与应用。这些大模型通常包含数百亿甚至万亿级的参数，导致其训练过程中需要消耗大量内存。动态张量重物化（Dynamic Tensor Rematerialization）作为一种有效的内存管理技术，可以在内存受限的情况下实现更大规模模型的训练。然而，在利用动态张量重物化技术进行有限内存下的大型模型训练时，重物化函数深度递归调用带来的大量重计算开销、重物化张量堆积致使的高内存占用、以及重物化过程引起的反向传播时间显著波动，都将导致性能损失。为了解决这些问题，我们提出了Nebula-Chain，一个面向分布式大模型训练的动态张量内存管理优化系统。具体而言，通过探索张量依赖关系，我们发现大模型训练的张量依赖图中普遍存在一条贯穿整个训练过程的最短依赖链，并据此设计了基于最短依赖链的动态张量重物化策略、流水线并行优化方法以及内存分层管理机制。基于这些优化技术，Nebula-Chain成功解决了深度递归调用、大量张量累积以及反向传播时间波动等问题所导致的性能瓶颈。测试结果表明，与当前主流的分布式模型训练策略相比，Nebula-Chain显著减少了GPU内存开销、张量释放次数和重物化次数，实现了最高1.58倍的吞吐量提升。

蒋超

联想研究院主任研究员

简介：高级工程师，2013年博士毕业于华中科技大学。现就职于联想研究院智能计算基础设施实验室，负责智算系统架构设计与硬件研发相关工作。加入联想前，曾先后在研究所、互联网行业等单位长期从事异构计算、AI加速、软硬件结合等研发工作。

报告题目：联想智能计算基础设施关键技术研究

摘要：随着AI的发展，尤其是大模型时代的到来，模型的规模持续增大，从早期的几十M级别到如今的万亿参数规模，在这个过程中，异构算力无疑发挥了最重要的核心支撑作用。为了进一步促进人工智能行业的发展，联想积极布局智能计算软硬件基础设施，围绕计算、互联、存储、容错等方向展开研究，并研发出了一系列关键核心技术，包括多元异构算力资源纳管、GPU细粒度虚拟化池化、大规模分布式训练高效弹性容错、高性能集合通信软硬件协同优化、DPU卸载基础负载、AI高层编译训推优化、AI与HPC任务融合调度等，并以此为基础打造了一款异构智能计算平台，可为行业用户提供极致优化的算力、通信、存储、容错、运行、维护服务以及AI和HPC应用任务全生命周期的管理支撑。

陈全

上海交通大学计算机系教授，计算机系副主任

简介：长期从事计算机体系结构、云原生计算相关的研究。主持国家优青、国家自然科学基金重点项目，并在ASPLOS，OSDI，ATC，SC，TC，TPDS，TACO等领域内著名国际会议和期刊上发表学术论文一百余篇。曾获CCF青年科技奖、阿里青橙奖等。目前担任国家自然科学基金委主办期刊Fundamental Research青年编委，领域内SCI期刊Parallel Computing、JCST、FCS编委及青年编委。研究成果曾获2023年CCF技术发明一等奖（排名第1）及国家技术发明二等奖。

报告题目：低延迟可扩展的云原生计算系统设计

摘要：云原生计算是新一代云计算的主要形态，其主要负载具有低延迟响应和高效扩展的核心需求。针对云原生中仍然存在的资源高度竞争、运行依赖复杂、扩展决策滞后的挑战，该报告将从封装方法、运行机制、扩展模型三方面介绍：1）软硬资源隔离的容器封装方法、2）去中心化触发的微服务高效执行机制、3）基于执行阻塞图模型的先验预扩展策略。基于上述方法研发了低延迟高密度的云原生运行时系统“逍遥”，提升了云原生系统效率。该系统方案集成应用于阿里云Alibaba Cloud Linux以及联想xCloud容器云平台等，应用成效显著。

顾琳

华中科技大学计算机学院副教授

简介：博士，华中科技大学计算机学院副教授，主要研究领域包括边缘计算和云原生计算等。在ASPLOS、SC、ATC、INFOCOM等CCF 推荐A/B类会议与期刊上发表论文40余篇，其中CCF A类论文16篇、CCF B类论文11篇，出版Springer学术专著2部。

报告题目：面向边缘原生计算的容器快速启动研究

摘要：云原生计算主要以轻量级容器为特点，非常适合相对资源受限的边缘计算。因此，将云原生技术拓展应用到边缘计算实现边缘原生计算，具有很大的潜力。然而，边缘资源具有容量受限、广分布且高异构特征，容器按需快速启动面临新的挑战。为此，本报告将探讨如何融合容器内在特性（例如镜像的层级存储、分层下载以及预热启动）优化容器在边缘原生计算中“部署-拉取-加载”的三个关键步骤，以达到提升边缘原生计算中服务启动速度的目的。

肖利民

联想集团首席科学家

简介：博士，研究员，联想集团首席科学家，CCF高性能计算、大数据、容错计算专委会委员，工信部电子科技委委员，科技部超算联盟副理事长、工信部先进计算联盟副理事长。承担30多项国家重点研发计划、自然科学基金、863、核高基重大专项等项目，在高性能计算、异构智能计算、智算芯片等领域取得一批创新成果。获国家科技进步奖4项、省部级奖10项。发表ISCA、TC、TCAD等论文260多篇。授权发明专利105项。

关于CNCC2024

CNCC2024将于10月24-26日在浙江省东阳市横店镇举办，大会主题为“发展新质生产力，计算引领未来”。大会为期三天，包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势，分享创新成果。预计参会者超过万人。

点击“阅读原文”，进入CNCC官网。