AI算力需求激增,本期推送的两篇论文聚焦于突破传统计算架构的效率瓶颈。论文系统梳理机器学习赋能的微架构设计加速方法,通过智能优化负载选择、模拟工具与性能建模,大幅压缩设计空间搜索成本。面对网络通信开销,CAInNet通过融合SIMD/MIMD计算模式重构网内计算,实现AI数据的高效处理与传输,实验验证其路由分类准确率超98%且节省近99%存储资源。
1、破解“暴力搜索”困局,五大加速策略全解析,从负载优化到性能建模,助你高效锁定最优设计方案!
王铎, 刘景磊, 严明玉, 滕亦涵, 韩登科, 叶笑春, 范东睿. 面向处理器微架构设计空间探索的加速方法综述[J]. 计算机研究与发展, 2025, 62(1): 22-57.
2、突破传统网络设备局限,首创SIMD+MIMD融合计算模式,让AI训练/推理数据在传输中完成智能处理,路由分类准确率98.3%,存储空间暴降98.7%!
刘忠沛,杨翔瑞,杨凌,高源航,吕高锋,王宝生,苏金树[J]. CAInNet:面向AI加速的通算一体网内计算模型[J]. 计算机学报, 2025, 48(1): 21-34.
AI时代的到来对当今算力提出了双重挑战,一方面涉及推理,另一方面涉及分布式训练。将一部分分布式应用的计算任务卸载到高速网络的网卡或交换机能够潜在提升分布式应用的性能,发挥网络的关键作用。如在交换机或网卡中卸载参数聚合等计算功能能够有效降低模型训练时产生的大量通信开销。基于P4语言的可编程数据平面除了使网络协议定制更加灵活外,还使得网络数据平面能够为分布式应用提供简单的网内计算服务。然而,当前典型的基于P4语言的可编程数据平面架构如协议无关交换架构(PISA)在矩阵运算等方面还表现得不够高效。该缺陷的关键原因在于:PISA架构中的超长指令字计算引擎在处理大规模并行同构计算任务时效率不高。
针对上述问题,来自国防科技大学的 《CAInNet:面向AI加速的通算一体网内计算模型》提出了一种面向AI加速的通算一体网内计算模型CAInNet。该模型在传统可编程数据平面的基础上,创新性地融合了单指令多数据流(SIMD)与多指令多数据流(MIMD)两种计算模式,使得网络设备不仅能够支持协议无关网络分组处理,还能在分组传输过程中对承载AI推理与训练的数据做网内计算。为了验证CAInNet在网内计算以及网络可编程方面的能力和效果,我们在该模型中使用带内网络遥测实现网络可视化,并部署多层感知机(MLP)模型实现基于AI的报文分类,替代传统的基于TCAM查表的路由方法。实验表明,采用机器学习推理的报文分类方法在包含5k路由表项的场景下,其准确度高达98.3%,同时节省了98.7%的存储空间,有效地解决了路由爆炸问题。与现有方法相比,将机器学习推理部署在CAInNet中不增加可编程数据平面的处理延迟,仅消耗适量计算资源。
点击“阅读原文”,加入CCF。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...