CNCC | 面向大模型的存算技术 - 新鲜讯息

CNCC2024

论坛简介：

面向大模型的存算技术

举办时间：10月25日13:30-17:30

地点：夏苑-海晏堂一楼1号厅

注：如有变动，请以官网(https://ccf.org.cn/cncc2024)最终信息为准

近期随着ChatGPT、Sora等新型人工智能现象级应用的出现，通用AI进入了大模型时代。垂域应用和大模型结合的创新如雨后出笋般快速涌现，由此带来了巨大的模型训练和推理的算力需求。然而，面对不断增长的算力成本需求，当前大模型系统面临“算力、存储和功耗”等多方面的挑战。为了解决这些问题，一些新型存储和计算技术应运而生。本论坛围绕新型大模型存算技术的关键要素展开讨论，探索新型应用、计算框架以及存算架构等多个技术领域的趋势和最新进展，提供学术和技术交流平台，促进交叉合作，联合创新。论坛邀请近年来具有代表性成果的杰出学者和头部企业技术负责人进行分享，共同促AI系统领域的发展和进步。

论坛日程

顺序	主题	主讲嘉宾	单位
1	存内计算系统的可靠性和性能提升方法	冯丹	华中科技大学
2	在文件扫描负载与快速存储设备双重压力下，系统缓存该如何设计？	张广艳	清华大学
3	智能存算融合关键技术研究	毛波	厦门大学
4	基于新兴存储器件的存算一体技术	林芃	浙江大学
5	面向云业务的大模型训推存算优化技术	郑毅	华为
6	面向大模型训练算力优化的智算中心通信调度方法	翟恩南	阿里云
7	构建CAP自洽的云化大模型推理服务	单一舟	华为

论坛主席及嘉宾介绍

论坛主席

何水兵

CCF杰出会员，浙江大学计算机学院研究员，之江实验室副主任，浙江省大数据智能计算重点实验室副主任

CCF杰出会员，CCF信息存储专委常委，CCF体系结构专委常委，浙江大学计算机学院研究员，之江实验室副主任，浙江省大数据智能计算重点实验室副主任。担任第17届国际网络结构存储会议NAS 2024程序委员会主席和第26届中国计算机系统大会ChinaSys 2024大会主席。主要从事智能计算、存储系统、存算一体、计算机体系结构等方面研究工作。主持或参与了国家自然科学基金、国家重点研发、科技部重大项目、教育部重点、浙江省重点研发、企业项目等20余项。在国际会议和期刊上发表论文90多篇，包括ASPLOS、MICRO、HPCA、SC、EuroSys、ATC、TOCS、TC和TPDS等CCF A类论文30余篇。担任国际期刊TPDS、TC编委，获2020年TPDS优秀编辑奖。

论坛讲者

冯丹

CCF会士，华中科技大学教授、副校长、计算机科学与技术学院院长，武汉光电国家研究中心信息存储研究部主任，信息存储系统教育部重点实验室主任

CCF会士，教授，华中科技大学副校长，计算机科学与技术学院院长，武汉光电国家研究中心信息存储研究部主任，信息存储系统教育部重点实验室主任。国家杰出青年基金获得者、长江学者、IEEE Fellow。从事信息存储系统与技术、存算一体、计算机系统结构等研究，担任存储领域2个973项目首席科学家，863重大项目“海量存储系统关键技术”总体专家组组长、基金委创新研究群体项目负责人等。授权发明专利100余项，发表论文300余篇，著作3部，主持完成国家标准6项和电子行业标准3项。获国家技术发明二等奖2项、国家科技进步二等奖1项。曾获“中国青年科技奖”、“全国三八红旗手称号”等。

报告题目：存内计算系统的可靠性和性能提升方法

摘要：基于非易失存储器的存内计算（Computing-in-Memory, CIM）系统可以通过原位计算高效加速矩阵向量乘法。但其中数据布局、存算阵列控制调度、磨损均衡等对存内计算系统的性能影响重大。为了解决通信性能和可靠性之间的平衡问题，同时协调现有存内计算编译器和动态调度，提出了抗乱序的计算转换层，通过数据布局和动态调度的协同优化，提高系统寿命和通信性能；提出了针对阵列的行列协同并行计算方法，提高了系统性能。

张广艳

CCF信息存储技术专业委员会副主任、计算机历史工作委员会副主任，清华大学计算机系长聘副教授

CCF信息存储技术专业委员会副主任、CCF计算机历史工作委员会副主任，清华大学计算机系长聘副教授，国家杰出青年科学基金获得者。主要从事大规模数据存储与分析的理论和方法研究，包括存储系统、数据压缩、大数据计算、AI计算系统等方面。研究得到包括国家杰出青年科学基金、国家重点研发计划、中国工程院战略研究与咨询项目、973和863等国家科研项目的支持。发表学术论文60余篇，其中包括FAST、SOSP、SIGMOD、USENIX ATC、EuroSys、ACM TOS、IEEE TC、IEEE TPDS等计算机系统领域顶级国际会议和期刊论文20余篇。以第一发明人获得美国发明专利授权、中国发明专利授权10余项。研究成果应用到多家国内骨干企业的存储产品中，效果良好。

报告题目：在文件扫描负载与快速存储设备双重压力下，系统缓存该如何设计？

摘要：基于内核缓冲I/O来执行文件扫描的方法，能够实现应用透明、异步写回、小写聚合和自动地址对齐的文件访问，被广泛应用于高性能计算和深度学习的检查点读写中。然而，随着存储设备性能的不断提升，现有的内核缓存I/O软件栈无法充分发挥存储设备的性能。我们的分析发现上述问题的原因在于前后台激烈的锁竞争和较慢的内存分配。进而，我们提出了一种内核页缓存管理方法StreamCache，旨在降低后台写回对前台写入的干扰，并优化内存分配速度。然而，这样做还面临一系列挑战，包括：如何在细粒度页缓存索引上实现较低的前后台干扰，如何针对高带宽需求的应用优化内存分配的速度。在本报告中，我们将共同探讨这些问题、挑战以及初步的解决方案。

毛波

厦门大学信息学院教授

CCF信息存储技术、分布式计算与系统、体系结构专委会执行委员，厦门大学信息学院教授，专注计算机存储系统及应用研究，承担了国家重点研发计划课题、国家自然科学基金和多项企业委托研发项目等，在国际著名会议和期刊上发表论文60多篇，包括FAST、HPCA、ISCA、ATC、ICS、ICDCS和IEEE/ACM会刊等，研究成果获DATE 2019最佳论文提名。担任TPDS技术审查委员会和可重现审查委员会委员，ChinaSys程序委员会共同主席和大会共同主席等，并担任ICS、ICDCS、IPDPS、CCGrid等国际会议PC等。

报告题目：智能存算融合关键技术研究

摘要：存储是数字经济的基石，新型计算应用和新型硬件对存储系统重构提出了更高的要求和挑战。为了更好地发挥硬件性能以更好的服务上层应用，软硬件协同设计的智能存算融合技术就非常重要，报告将介绍我们在这智能存算融合的两项最近研究工作：（1）面向闪存的基于学习索引的FTL设计LearnedFTL，结合应用负载特点和闪存设备的硬件特性，提供更高效的存储数据索引和管理；（2）面向DPU的键值存储参数调优技术TonicDB，通过挖掘DPU的数据面和控制面功能更好的加速键值存储系统。通过智能化的软硬件协同设计使存储系统能够更好地满足不断增长的高性能数据处理需求。

林芃

浙江大学计算机科学与技术学院、脑机智能全国重点实验室研究员，博导

浙江大学计算机科学与技术学院、脑机智能全国重点实验室研究员，博导，国家高层次青年人才，美国麻萨诸塞大学博士、麻省理工学院博士后，主要研究方向是新型类脑计算系统，近年来在Nature Electronics, Nature Nanotechnology等期刊发表高水平论文50余篇，包括多篇Nature子刊封面论文，担任中国人工智能学会脑机融合与生物机器智能专委会委员。

报告题目：基于新兴存储器件的存算一体技术

摘要：人工智能的快速发展对硬件系统提出了越来越高的性能需求，在神经网络模型规模日益增长的大趋势下，处理器与内存间的数据搬运问题逐渐凸显，对高效完成神经网络训练与推理任务提出新的挑战。以忆阻器为代表的新兴存储器件可以高效实现存算一体化及并行计算等处理范式，并为类脑计算提供全新的人工神经元及突触元器件。在这个报告中，我将主要讨论存算一体系统底层器件的设计与挑战，并探讨其在神经网络硬件加速方面的一些尝试。

郑毅

华为云AI系统创新Lab技术专家

华为云AI系统创新Lab技术专家，博士毕业于中国科学技术大学和香港城市大学，长期从事NLP算法、大模型、AI系统等研究工作，相关成果发表在 AAAI、IJCAI、TKDD、TOIS、Nature communications等顶会或期刊20+篇，对大模型、NLP、知识图谱等人工智能技术、AI训练推理优化技术，以及AI在行业落地有深入的理解，拥有丰富的算法研究及工程落地经验。

报告题目：面向云业务的大模型训推存算优化技术

摘要：随着大模型的飞速发展，云业务也进入了智算时代。面向云业务场景大模型训练、推理的诸多挑战，本次报告围绕计算、存储两个方面去分享相关解决方案。训练方面，由于大模型的巨大规模，模型面临存不下，算不快、通信慢等挑战，通过探索自适应重计算等技术，节省显存的同时降低对算力利用率的影响；推理方面，由于大模型自回归解码的特性，模型面临串行解码速度慢、算力利用率低等挑战，通过探索自适应高效解码框架，提升算力利用率加速解码。展望未来，智算时代的云业务还要解决能耗、多元算力需求等挑战。

翟恩南

阿里云基础设施网络研究负责人

CCF互联网专委常委及分布式计算专委常委，阿里云基础设施网络研究负责人。2015 年博士毕业于耶鲁大学计算机系，随后担任耶鲁大学研究型助理教授，2018 年加入阿里巴巴。主导阿里云智能化网络可靠性运维体系，确保巴黎奥运、北京冬奥期间阿里云直播网络0故障。研究领域包括计算机网络、分布式系统等，发表顶级会议论文60余篇（包括 SIGCOMM 13篇）。多次担任 SIGCOMM、NSDI 程序委员会委员。获 SIGCOMM 最佳论文优胜奖、获通信学会技术发明一等奖一次。

报告题目：面向大模型训练算力优化的智算中心通信调度方法

摘要：在大模型训练生产环境中，训练任务间的通信竞争严重影响整体集群的 GPU 计算利用率。为解决这一智算基础问题，我们提出了Crux通过调度缓解任务间通信竞争从而最大化GPU利用率。我们首先通过证明，将最大化利用率这一NP问题规约为GPU算力密度感知的通信调度问题，从而提出优先处理具有高GPU算力密度的训练任务流的解决方法，以减少潜在的多任务通信竞争。Crux在实际环境中将GPU计算利用率提高了8.3%到14.8%。该工作获 SIGCOMM'24 最佳论文优胜奖。

单一舟

华为云Serverless AI平台架构师

华为云Serverless AI平台架构师, 博士毕业于UCSD计算机系, 在华为云主导Serverless AI平台, 分布式存储DPU卸载加速, 内存基础设施平台等关键项目. 主要研究方向围绕如何提升数据中心性价比, 在大模型推理, 分离式内存, 分离式存储, 操作系统, FPGA等方向发表学术论文20+, 研究曾获得OSDI’18, SYSTOR’19, FPGA’24 Runner Up最佳论文。

报告题目：构建CAP自洽的云化大模型推理服务

摘要：在AI大变革时代，生成式AI服务厂商扮演了至关重要的角色，为AI应用提供关键基础设施保障。生成式AI云服务一般对外提供三件套服务: 全托管微调 (Fine Tuning)，智能体推理 (Agent Serving) 和大模型推理 (Model Serving)，而其中智能体推理和大模型推理是AI应用变现的最后一公里的重中之重。生成式AI推理服务的核心竞争力有三个: 序列长度 (Context)，推理精度 (Accuracy)，和推理性能 (Performance)。本次演讲将重点展开如何构建一个CAP自恰的推理服务，同时满足客户对于长度，精度和性价比的诉求。具体来说, 我会建立一个三维的模型，先展开提升Context和Accuracy的算法技术，最后重点展开围绕提升推理性价比的系统技术，例如为支持Context Caching的分布式KV Cache存储系统，支持分离式推理的动态调度以及扩缩容，支持DiT-based文生图文生视频加速等技术。

关于CNCC2024

CNCC2024将于10月24-26日在浙江省东阳市横店镇举办，大会主题为“发展新质生产力，计算引领未来”。大会为期三天，包括18个特邀报告、3个大会论坛、138个专题论坛及34场专题活动和100余个展览。图灵奖获得者、两院院士、国内外顶尖学者、知名企业家在内的超过800位讲者在会上展望前沿趋势，分享创新成果。预计参会者超过万人。

点击“阅读原文”，进入CNCC官网。