论坛旨在探讨智算中心高性能网络的关键作用和未来发展方向。
论坛简介:
高性能网络:智算中心的“交通枢纽”
举办时间:11月8日13:30-17:30
地点:张家港万豪酒店
注:如有变动,请以官网(https://ccf.org.cn/chinanet2024)最终信息为准
论坛旨在探讨智算中心高性能网络的关键作用和未来发展方向。高性能网络在智算中心中扮演着关键角色,智算中心需要快速、可靠的网络来支持大规模数据传输、计算任务和人工智能应用。一个高效的网络架构可以提高数据处理速度、降低延迟,促进数据共享和协作,从而推动智算中心的创新和发展。与会者将深入探讨如何构建更具弹性和高性能的网络基础设施,以满足智算中心不断增长的需求,推动科技创新和进步。论坛探讨的主要内容包括高性能网络在智算中心中的重要性,包括其对计算、存储、通信等方面的影响,聚焦于如何优化网络架构以支持大规模数据处理、机器学习和人工智能应用,以及如何应对日益增长的数据流量和复杂的计算需求。
论坛日程
论坛主席及嘉宾介绍
主席
陈果
湖南大学信息科学与工程学院教授,国家超算长沙中心常务副主任
个人简介:陈果,湖南大学信息科学与工程学院教授,国家超算长沙中心常务副主任。长期从事高性能网络研究,在RDMA协议栈、路由传输协议等方面有多项研究成果应用于华为鲲鹏芯片、腾讯自研交换机、腾讯CDN网络和百度无线搜索等。入选国家优青、湖南省优青、长沙市杰青,获华为最佳技术合作教授、湖南省科技进步二等奖、中国产学研合作创新奖(个人奖)、全国高校计算机专业优秀教师等荣誉,主持三项国家自然科学基金、科技部重点研发课题及任务、十余项华为、腾讯等企业合作研究项目。
共同主席
李韬
国防科技大学计算机学院网络空间安全系副主任,副研究员
个人简介:李韬,国防科技大学计算机学院网络空间安全系副主任,副研究员,研究方向为高性能网络芯片及系统,主持和参与863、重点研发、自然科学基金、军队预研、型号等国家及军队重大项目10余项,主持5款专用网络芯片研制。研究成果获国家科技进步二等奖1项、J队及省部级科技进步一等奖3项、J队科技进步三等奖1项。2020年J队青年科技英才,授权专利20余项,发表论文40余篇,出版专著两部。
嘉宾
陈凯
香港科技大学计算机科学与工程系教授,智能网络与系统实验室(iSING Lab)主任
个人简介:陈凯,香港科技大学计算机科学与工程系教授,智能网络与系统实验室(iSING Lab)主任,主要研究方向包括数据中心网络、AI中心网络、机器学习系统。曾多次在ACM SIGCOMM、USENIX NSDI/OSDI、IEEE/ACM TON等国际顶尖学术会议和期刊上发表文章, 获得IEEE ICNP 2023最佳论文奖和ACM SIGCOMM 2010最佳论文提名奖。担任SIGCOMM/NSDI/CoNEXT/EuroSys/TON等国际会议和期刊的程序委员和编委、IEEE ICNP 2024程序委员会主席、ACM CoNEXT 2025 大会主席,是亚太网络研讨会APNet发起人和指导委员会主席。
报告题目:AI-centric Networking: Opportunities and Challenges
摘要:The ever-growing AI and ML workloads present unprecedented opportunities as well as challenges for designing AI-centric networking in modern AI/ML clusters. In this talk, I will first introduce the special characteristics of communication with the distributed AI/ML training and then discuss how to explore these characteristics in designing next-generation datacenter network architecture, algorithm, and protocols for AI and ML workloads.
田臣
南京大学教授,博导
个人简介:田臣,南京大学教授,博士生导师,获国家杰出青年科学基金资助。田臣老师在计算机网络和分布式系统领域SIGCOMM、NSDI、OSDI、FAST、SIGMOD等多个顶级学术会议和知名国际期刊上录用和发表论文100余篇。他的工作受到了国内外研究者的广泛引用和关注,根据Google Scholar 最新学术搜索数据,迄今为止论文累计被引用5000余次。
报告题目:算网融合实现可靠RDMA组播
摘要:RDMA is extensively deployed in data center networks to support high-performance applications. In this talk, we mainly focus on the RDMA usage in the distributed storage system and study the famous, open-source distributed storage system, Ceph, extensively to unveil the bottleneck of existing ceph system. We present MC-RDMA, a distributed and reliable multicast RDMA protocol designed to enhance the replication performance of RDMA-based distributed systems.
翟恩南
阿里云资深技术专家
个人简介:翟恩南,阿里云资深技术专家。2015 年于耶鲁大学计算机系获博士学位,随后担任耶鲁大学研究型助理教授,2018 年加入阿里巴巴。主导阿里云智能化网络可靠性运维体系,确保北京冬奥、东京奥运、钉钉上亿人线上办公期间阿里云直播网络 0 故障。研究领域包括计算机网络、分布式系统等,先后在这些方向的国际顶级会议如 SIGCOMM、NSDI 等累计发表 60 余篇论文(包括 SIGCOMM 13 篇)。多次担任 SIGCOMM、NSDI 等国际顶级会议程序委员会委员。现任 CCF 互联网专委常委及分布式计算专委常委。获 SIGCOMM 最佳论文优胜奖、获通信学会技术发明一等奖一次。
报告题目:面向大模型训练算力优化的智算中心通信调度方法
摘要:深度学习训练(例如,大语言模型 LLM 训练)已成为多租户云计算、云智算中最重要的服务之一。在实际生产环境中,我们观察到不同的训练任务间的通信竞争严重影响了整体 GPU 的计算利用率,导致训练集群效率低下。为了解决这一智算中心的基础性问题,我们建立了 Crux 一个旨在通过缓解训练任务间通信竞争从而最大化 GPU 计算利用率的调度系统。然而,最大化 GPU 计算利用率本身是一个 NP 完全问题;因此,我们通过构建构建一个定理证明,将这一目标规约为 GPU 算力强度感知的通信调度问题,从而提出优先处理具有高 GPU 算力强度的训练任务流的解决方法,以减少潜在的多任务通信竞争。我们的 96-GPU 测试平台实验显示,Crux 将 GPU 计算利用率提高了 8.3% 到 14.8%。千卡规模生产数据下的实验与已有工作 Sincronia、TACCL 和 CASSINI 等对比,Crux 将 GPU 计算利用率平均提高到多达 23%。该工作获 SIGCOMM'24 最佳论文优胜奖。
陈力
北京中关村实验室副研究员
个人简介:陈力,北京中关村实验室副研究员。2018年于香港科技大学获得博士学位。在加入实验室之前,曾在腾讯、华为工作多年。对计算机网络、系统、安全等方向的研究有广泛的兴趣,曾在SIGCOMM、NSDI、SOSP、ToN等国际顶级会议和期刊上发表50余篇论文,被引用2100余次,并在2022年获得了大中华地区首个SIGCOMM最佳论文奖。
报告题目:基于局部数据并行的大语言模型流水线训练优化方法
摘要:流水线模型并行(Pipeline Model Parallelism)是训练大语言模型(Large Language Models, LLMs)的关键策略之一。在流水线执行过程中,某些设备可能需要等待其他设备完成前置任务,导致出现"气泡时间"(Bubble Time),从而降低了训练效率。为了解决这一问题,我们提出了一种新颖的流水线优化方法——Xpipe。该方法通过在流水线中引入局部数据并行(Local Data Parallelism),可以显著减少气泡时间,提高设备利用率。Xpipe可以与现有的流水线调度算法正交地结合,同时保持原有调度算法的特性。通过理论分析和实验评估,我们发现Xpipe可以将气泡时间减少50%到100%,同时将端到端训练时间缩短10.2%到14.1%,表明Xpipe是一种高效的流水线优化方法,可以显著提升大语言模型的训练性能。
江卓
字节跳动网络研发专家
个人简介:江卓,字节跳动网络研发专家。2018年获得清华大学计算机科学与技术博士学位。美国普渡大学博士后。长期致力于包括MPTCP、RDMA在内的高性能、高可靠传输协议研究和大规模产业应用。在互联网端到端传输协议的测量与优化、RDMA大规模部署以及和应用融合优化等方面,积累了丰富的经验。
报告题目:以应用网络需求为中心的高性能AI网络
摘要:随着应用需求的迅猛增长,支撑大规模训练推理的AI网络技术演进变得更加迅速。应用需求体现在更大规模、更高的可观测性、更高的性能等方面。为了更好地满足应用的网络需求,一方面需要通过更加精细化的观测手段去感知应用的网络行为,另一方面需要结合机内互联和机间网络互联的发展进行更加高效的联合优化。本次报告从应用对AI网络需求出发,介绍近期覆盖机内、单一网卡和机间高速网络可观测性工具进展以及相应的性能优化方案。
李存禄
国防科技大学副研究员
个人简介:李存禄,国防科技大学副研究员,主要研究方向为高性能计算机网络,参与国产高性能计算机系统及多个路由芯片研制项目。研究成果在TPDS、TACO、TC、ICS、ICPP等著名国际学术期刊和会议发表论文30余篇,其中CCF A/B类论文15篇。申请专利10余项,出版专著2部,主持自然科学基金、国防科大高层次创新人才项目等项目6项。获评湖南省优博、ACM SIGHPC优博、中国电子学会自然科学二等奖、国防科大青年创新奖等。
报告题目:RDMA网卡内生拥塞控制机制研究
摘要:超算智算融合已成为高性能计算机系统发展的重要趋势。智算应用的部署使得高性能计算机系统的负载类型和流量特性产生变化,传输性能严重受限于网络拥塞。同时,由于RDMA网卡硬件的黑盒特性以及RDMA协议约束的复杂性,简单地融合RDMA与拥塞控制会导致协议互为掣肘,影响网络性能。本报告探讨了如何实现拥塞控制协议与RDMA网卡硬件微体系结构的高效融合,介绍了我们设计的RDMA网卡硬件内生支持的拥塞控制协议以及在拥塞控制方向的相关工作。
*日程信息实时更新,以大会最终公布为准。
获取更多关于2024 CCF中国网络大会(CCF ChinaNet2024)信息,请登录大会官网:https://ccf.org.cn/chinanet2024
注册链接:
https://conf.ccf.org.cn/conf/signup/add.htm?meetingId=m1275479648918179840172413964556
注册二维码:
说明:本次会议通过CCF会议管理系统缴费,退费遵守《CCF关于会议注册费的退费规定》。
点击阅读原文,立即注册!
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...