大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
随着大语言模型(LLM)参数规模突破千亿级(如 Kimi-K2 达 1000B 参数)、上下文长度扩展至 32K 甚至更长,激活值巨大的显存开销已经成为大语言模型训练过程中的核心瓶...
这是关于 细粒度 标签的相关文章列表
随着大语言模型(LLM)参数规模突破千亿级(如 Kimi-K2 达 1000B 参数)、上下文长度扩展至 32K 甚至更长,激活值巨大的显存开销已经成为大语言模型训练过程中的核心瓶...
信创云灾备平台是基于信息技术应用创新(信创)生态体系,为保障党政军及关键行业企业业务连续性和数据安全性而构建的专属灾备平台。其功能要求需全面覆盖从数据保护、业务容灾到应急恢复的全流...
“情智兼备”是新一代人工智能的重要发展方向,是迈向通用人工智能的关键一步。在人机交互场景中,具备情智的数字人与机器人需要精准解译多模态交互信息,深度挖掘人类内在情感状态,从而实现更...
作者:孙暕晖,腾讯微信IH-VQA队长;岳新立,IH-VQA核心成员微信iMatch技术国际赛事夺冠,如何攻克AI图文匹配评估难题?冠军证书|CVPR2025 NTIRE Text...
近年来,由于视频处理技术的发展和社交平台的流行,用户生成内容(UGC)视频数量呈爆炸式增长。由于UGC视频涵盖了多种视频拍摄和处理条件,因此通常会遭受各种退化,如噪声、模糊、抖动等...
1、2DynEthNet: A Two-Dimensional Streaming Framework for Ethereum Phishing Scam Detection近年...
CNCC2024论坛简介:AIGC内容乱象:检测与溯源能否主宰乾坤举办时间:10月25日13:30-17:30地点:夏苑-海晏堂一楼3号厅注:如有变动,请以官网(https://c...
近年来,微隔离市场发生了很大变化。厂商已从传统的企业内部网络扩展到现代公共云工作负载,涵盖了物联网、OT 和医疗保健等一系列环境,以确保根据零信任原则在所有环境中提供一致的保护...
pwru 是 Cilium 推出的基于 eBPF 开发的网络数据包排查工具,它提供了更细粒度的网络数据包排查方案。本文将介绍 pwru 的使用方法和经典场景,并介绍其实现原理。安装...
主旨演讲2021年2月3日,第八届安天网络安全冬训营于线上成功举办,当日累计55万人在线关注。本届冬训营营语为“长缨待展”,以“威胁框架:细粒度对抗”为主题,设置7个议题板块,18...